SemVLP 单流和双流Transformer哪个好?阿里:我全都要!提出带可插拔模块的Transformer结构...

SemVLP是一种新型的视觉语言预训练方法,结合了单流和双流Transformer的优点。通过共享Transformer网络和可插拔的跨模态注意模块,模型能在低层和高层语义上对图像和文本进行联合对齐。在多个视觉语言理解任务上,SemVLP表现出在不同语义粒度对齐的有效性。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

1

写在前面

大规模图像-文本对的视觉语言预训练(VLP)在跨模态表征的学习方面取得了快速的进展。现有的预训练方法要么直接将特征级的图像表示和文本表示连接起来作为single-stream Transformer的输入,要么使用two-stream Transformer将图像-文本表示在高级语义空间对齐。

在真实的图像-文本数据中,一部分图像-文本对很容易在两种模态上对齐语义,而另一部分图像-文本对需要进行更高级语义上的对齐。因此,在本文中,作者提出了一种新的预训练方法SemVLP,它将图像和文本表示之间的低层和高层语义联合起来

该模型采用两种方式进行迭代预训练:通过使用带有可插可拔的跨模态注意模块 的共享Transformer网络(去掉跨模态注意模块为single-stream Transformer;插上跨模态注意模块为two-stream Transformer),single-stream预训练用于对齐低级语义,two-stream Transformer预训练用于对齐高级语义。

作者在四个的视觉语言理解任务上进行了大量实验,证明了SemVLP在跨模态表示与不同语义粒度对齐方面的有效性。

2

论文和代码地址

cb435be549408ac5dd5ec2cad6625a2a.png

SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

论文:https://arxiv.org/pdf/2103.07829v1.pdf
代码:未开源

3

Motivation

受各种NLP任务中预训练语言模型的成功启发,最近关于视觉语言预训练(VLP)的研究证明了能够通过利用大规模图像-文本对学习不同模态之间的语义对齐,而在各种下游视觉和语言(V+L)任务上实现SOTA性能。

现有的VLP模型基本上遵循多层Transformer,并使用自注意机制学习大规模跨模态数据上的语义对齐。就跨模态对齐的粒度而言,有两种不同的模型结构来对齐跨模态表示。

单流(single-stream)Transformer架构假设两种模态背后的底层语义简单明了,因此简单地将低层语义空间中的图像区域特征和文本特征连接起来,以便以直接的方式进行融合

双流(two-stream)Transformer架构首先使用单模态Transformer分别学习图像和句子表示的高级抽象,然后将两种模态与跨模态Transformer结合起来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值