关注公众号,发现CV技术之美
1
写在前面
大规模图像-文本对的视觉语言预训练(VLP)在跨模态表征的学习方面取得了快速的进展。现有的预训练方法要么直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入,要么使用two-stream Transformer将图像-文本表示在高级语义空间对齐。
在真实的图像-文本数据中,一部分图像-文本对很容易在两种模态上对齐语义,而另一部分图像-文本对需要进行更高级语义上的对齐。因此,在本文中,作者提出了一种新的预训练方法SemVLP,它将图像和文本表示之间的低层和高层语义联合起来。
该模型采用两种方式进行迭代预训练:通过使用带有可插可拔的跨模态注意模块 的共享Transformer网络(去掉跨模态注意模块为single-stream Transformer;插上跨模态注意模块为two-stream Transformer),single-stream预训练用于对齐低级语义,two-stream Transformer预训练用于对齐高级语义。
作者在四个的视觉语言理解任务上进行了大量实验,证明了SemVLP在跨模态表示与不同语义粒度对齐方面的有效性。
2
论文和代码地址
SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels
论文:https://arxiv.org/pdf/2103.07829v1.pdf
代码:未开源
3
Motivation
受各种NLP任务中预训练语言模型的成功启发,最近关于视觉语言预训练(VLP)的研究证明了能够通过利用大规模图像-文本对学习不同模态之间的语义对齐,而在各种下游视觉和语言(V+L)任务上实现SOTA性能。
现有的VLP模型基本上遵循多层Transformer,并使用自注意机制学习大规模跨模态数据上的语义对齐。就跨模态对齐的粒度而言,有两种不同的模型结构来对齐跨模态表示。
单流(single-stream)Transformer架构假设两种模态背后的底层语义简单明了,因此简单地将低层语义空间中的图像区域特征和文本特征连接起来,以便以直接的方式进行融合 。
双流(two-stream)Transformer架构首先使用单模态Transformer分别学习图像和句子表示的高级抽象,然后将两种模态与跨模态Transformer结合起来 。