《Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions》论文阅读

最新推荐文章于 2023-11-13 09:27:00 发布

李加贝_

最新推荐文章于 2023-11-13 09:27:00 发布

阅读量310

点赞数

分类专栏：视觉文本对齐文章标签：深度学习神经网络自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38990652/article/details/120578821

版权

视觉文本对齐专栏收录该内容

5 篇文章

订阅专栏

idea

受无监督机器翻译的启发，作者旨在研究在没有成对的image-caption语料库的setting下通过无监督预训练学习一个更强的视觉语言特征模型

作者提出了一种mask-and-predict预训练方法在只有文本和只有图像的语料库中，并且引入了目标检测模型来检测目标标签来连接两个模态

Method

作者受multi-lingual contextual language models的启发，将图像作为一个区域集合，并且将每一个区域作为一个token

作者使用VisualBERT，将此应用于无监督预训练中，得到Unsupervised VisualBERT (U-VisualBERT).该模型是由一个Transformer组成的，可以接受两种模态的输入（参数共享）。

给定一个文本语料库DT和一个图像语料库DI，在预训练过程中，随机采用一批文本或者一批图像（注意：图像和文本是没有对齐关系的）

当提供文本输入时，该模型用来训练预测masked的文本单词

当提供图像输入时，该模型用来训练预测masked的图像区域的属性

预训练后，模型在下游监督任务中微调

--------------------------------------------------------------------------------------

之前的模型是给定一个图像文本对来自一个对齐的数据集D，然后随机mask掉一些图像、区域，和tag

--------------------------------------------------------------------------------------

为了进一步鼓励跨模态融合，作者利用通过目标检测器得到的tag作为”anchor points“，对于每一个object，都将其检测到的tag作为一个单词添加到视觉输入中，通过此来进一步促进区域单词对齐，作者添加了坐标嵌入到tag中，使得模型可以分辨出不同区域的tag，tag在预训练和微调时都使用了，在预训练期间，一些tag被mask掉，来训练模型阿里预测mask掉的tag，tag和text的单词预测的softmax层共享参数

EXP

通过这个可视化可以进一步探究tag是如何帮助对齐这两种模态的

右图中，没有tag的模型，可以看出来，视觉和文本特征基本上是分开的，如两个分开的红色框

U-VisualBERT，进一步还可以发现，红色框中和蓝色框中的类别都是语义很接近的，并且他们距离也很近

最后作者还在半监督下进行了预训练

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。