CLIP-ViL：CLIP对视觉和语言任务有多大的好处？UC Berkeley&UCLA团队给出了答案！

最新推荐文章于 2024-09-02 14:49:10 发布

我爱计算机视觉

最新推荐文章于 2024-09-02 14:49:10 发布

阅读量895

点赞数

文章标签：计算机视觉机器学习人工智能深度学习大数据

本文链接：https://blog.csdn.net/moxibingdao/article/details/121134170

版权

研究表明，CLIP在大规模图像标题对上预训练后，可在各种视觉任务中展现出强大的零样本迁移能力。通过在VQA、图像字幕和V&L导航任务中使用CLIP作为视觉编码器，取得SOTA或有竞争力的结果。论文探讨了将CLIP直接插入特定任务微调和结合V&L预训练的两种场景。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

写在前面

大多数现有的视觉和语言（V&L）模型依赖预训练的视觉编码器，使用相对较小的人工标注数据集来感知视觉世界。然而，大规模的预训练通常可以产生更好的泛化性能，例如，在大量图像标题对上训练的CLIP（Contrastive Language-Image Pre-training，对比语言图像预训练）在各种视觉任务中表现出很强的零样本迁移能力。

为了进一步研究CLIP带来的优势，作者提出在两种典型场景中，在各种V&L模型中使用CLIP作为视觉编码器：

1）将CLIP插入到特定于任务的微调中；

2）将CLIP与V&L预训练相结合，并迁移到下游任务 。

作者发现，CLIP显著优于使用域内标注数据训练的视觉编码器（如Bottom Up-Top Down）。作者在各种V&L任务上取得了具有竞争力或更好的结果，同时在Visual Question Answering、 Visual Entailment和V&L Navigation任务上取得了SOTA的结果。

论文和代码地址