#今日论文推荐# CVPR2022|比VinVL快一万倍，人大提出交互协同的双流视觉语言预训练模型COTS，又快又好

最新推荐文章于 2024-07-10 16:50:08 发布

wwwsxn

最新推荐文章于 2024-07-10 16:50:08 发布

阅读量316

点赞数

分类专栏： AI 文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/6311fdc17cb68b460f125113

版权

AI 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

#今日论文推荐# CVPR2022|比VinVL快一万倍，人大提出交互协同的双流视觉语言预训练模型COTS，又快又好

大规模的单流预训练在图文检索中表现出显着的性能。遗憾的是，由于注意力层重，它面临着推理效率低的问题。最近，具有高推理效率的 CLIP 和 ALIGN 等双流方法也显示出了可观的性能，但是它们只考虑了两个流之间的实例级对齐（因此仍有改进的空间）。为了克服这些限制，作者提出了一种新的协作双流视觉语言预训练模型，称为 COTS，用于通过增强跨模态交互来进行图像文本检索。除了通过动量对比学习进行实例级对齐之外，作者还在 COTS 中利用了两个额外级别的跨模态交互：(1) token级交互——在不使用跨流网络的情况下设计了掩蔽视觉语言建模 (MVLM) 学习目标模块，其中变分自动编码器被施加在视觉编码器上，为每个图像生成视觉token。(2) 任务级交互——在文本到图像和图像到文本检索任务之间设计了一个 KL 对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负队列计算的。在公平的比较设置下， COTS 在所有双流方法中实现了最高性能和可比性能（但推理速度快 10,800 倍）。重要的是，本文的 COTS 也适用于文本到视频的检索，在广泛使用的 MSR-VTT 数据集上产生了新的最新技术。

pretrain-then-finetune 范式在自然语言处理 (NLP) 领域取得了巨大成功，其中模型首先使用大规模数据（例如 BERT 、RoBERTa 和 GPT3 ），然后针对每个下游任务进行微调。最近，在视觉语言 (VL) 领域也显示了它的有效性，其中在各种 VL 任务（例如，图像文本检索、视频文本检索和视觉问题回答）通过视觉语言预训练（VLP）得到了显着改善。VLP 模型通常以巨大的图像-文本对作为输入，旨在学习具有单模态和跨模态预训练目标的联合图像-文本表示，例如掩码token预测和图像-文本匹配。

论文题目：COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
详细解读：https://www.aminer.cn/research_report/6311fdc17cb68b460f125113https://www.aminer.cn/research_report/6311fdc17cb68b460f125113
AMiner链接：https://www.aminer.cn/?f=cs