2019LXMERT：Learning Cross-Modality Encoder Representations from Transformers

weixin_42653320

于 2021-07-23 17:27:49 发布

阅读量312

点赞数

分类专栏：视觉问答文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42653320/article/details/119024178

版权

摘要

视觉-语言推理不仅需要视觉概念、语言语义的理解，更需要这两个模态的对齐和关系。因此，我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中，我们构建了一个大规模的Transformer模型包含三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来，为了赋予我们模型连接视觉和语言语义的能力，我们通过五种不同的预训练任务(掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答)，用大量图像和句子对进行预训练。这些任务有助于学习模态内和跨模态关系。在对预训练好的参数进行微调后，我们的模型在两个数据集上(如VQA和GQA)取得最先进的结果。还展示了我们预训练跨模态模型的通用性，将其适应一个视觉推理任务NLVR，并提高了性能。

一、介绍

我们新的跨模态模型关注学习视觉和语言交互，尤其是一个图像和它的描述性句子的表示。为更好学习跨模态对齐，我们用五个任务预训练我们的模型，这种多模态预训练允许我们的模型从同一模态的可见元素或从其他模态的对齐的组件中推断出掩蔽特征。这有助于建立模态内部和跨模态间的关系。

二、模型结构

2.1 输入嵌入

LXMERT输入嵌入层将输入转化为两个特征序列：词级句子嵌入和对象级图像嵌入。

（1）词级句子嵌入：通过WordPiece tokenizer将句子分为词，然后通过嵌入层将单词和索引投影到向量上，然后添加到具有索引感知的词嵌入中：

（2）对象级图像嵌入：对象检测器检测m个对象，每个对象通过位置特征(边界框坐标)pj和2048维RoI特征表示fj，我们通过添加两个全连接层的输出来学习一个具有位置感知的嵌入：

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2019LXMERT：Learning Cross-Modality Encoder Representations from Transformers

摘要视觉-语言推理不仅需要视觉概念、语言语义的理解，更需要这两个模态的对齐和关系。因此，我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中，我们构建了一个大规模的Transformer模型包含三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来，为了赋予我们模型连接视觉和语言语义的能力，我们通过五种不同的预训练任务(掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答)，用大量图像和句...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。