关注公众号,发现CV技术之美
本篇分享论文『Distilled Dual-Encoder Model for Vision-Language Understanding』,用双流网络也能学的又快又好?哈工大&微软提出用于视觉语言理解的蒸馏双编码器模型,在多个多模态任务上实现又快又好的效果!
详细信息如下:
论文地址:https://arxiv.org/abs/2112.08723
代码地址:https://github.com/kugwzk/Distilled-DualEncoder
01
摘要
本文提出了一个跨模态注意力蒸馏框架来训练用于视觉语言理解任务的双编码器模型,例如视觉推理和视觉问答。双编码器模型比融合编码器模型具有更快的推理速度,并且能够在推理过程中对图像和文本进行预计算。然而,双编码器模型中使用的浅交互模块不足以处理复杂的视觉语言理解任务。
为了学习图像和文本的深度交互,作者提出了跨模态注意力蒸馏,它使用融合编码器模型的图像到文本和文本到图像的注意力分布来指导双编码器的训练模型。此外,作者表明 ,在预训练和微调阶段应用跨模态注意力蒸馏可以实现进一步的改进。实验结果表明,蒸馏后的双编码器模型在视觉推理、视觉entailment和视觉问答任务方面取得了有竞争力的性能,同时比融合编码器模型具有更快的推理速度。
02
Motivation
视觉语言(VL)预训练模型学习了大规模图像-文本对的跨模态表示,并且可以直接微调以适应到各种下游 VL 任务,例如视觉语言理解/分类(视觉推理、视觉问答等)和图像文本检索。基于跨模态交互的方法,这些模型可以分为两类。
第一类是融合编码器模型,它采用有效但较少高效的Transformer编码器,用于捕获具有跨模态注意力的图像和文本交互。该类别的大多数模型依赖于现成的目标检测器来提取图像区域特征,这进一步阻碍了它们的效率。最近,ViLT放弃了检测器,并使用 Vision Transformer 直接对图像patch进行编码。
它在提高效率的同时,在 VL 理解和检索任务上取得了有竞争力的表现。然而,由于需要同时编码图像和文本,基于 Transformer 的跨模态交互仍然是效率瓶颈,限制了其在具有大量图像或文本候选的任务中的应用。
第二类作品,包括 CLIP和 ALIGN,采用双编码器架构分别编码图像和文本。跨模态交互通过浅层融合模块建模,通常是多层感知器 (MLP) 网络或点积,与融合编码器模型中的 Transformer 编码器相比,它非常轻。此外,分开的编码支持离线计算和缓存图像和文本候选,这可以很好地扩展到大量候选。
这些变化在理解和检索任务中降低了更快的推理速度,使模型在现实生活中变得实用。双编码器模型在图像文本检索任务上取得了可喜的性能。双编码器模型在图像文本检索任务上取得了可喜的性能。然而,它们在需要复杂的跨模态推理的视觉语言理解任务上远远落后于融合编码器模型,例如 NLVR2。
在这项工作中,作者提出了一个跨模态注意力蒸馏框架来训练双编码器视觉语言模型。蒸馏后的双编码器模型在视觉语言理解任务中实现了具有竞争力的性能,其推理速度比融合编码器模型快得多。
除了软标签蒸馏,作者