【论文笔记】ViLBERT:Pretraining Task-Agnostic VisiolinguisticRepresentations for Vision-and-Language Tasks

论文标题:

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT:视觉和语言任务的预训练任务不可知视觉语言表示

论文链接:https://arxiv.org/abs/1908.02265

论文代码:

数据集地址:https://github.com/google-research-datasets/conceptual-captions

发表时间:2019年8月

Abstract

我们提出了 ViLBERT(Vision-and-Language BERT 的缩写),一种用于学习与任务无关的图像内容和自然语言的联合表示的模型。我们将流行的 BERT 架构扩展到多模态双流模型,在通过共同注意力转换器层交互的单独流中处理视觉和文本输入。我们通过自动收集的大型概念字幕数据集上的两个代理任务对模型进行预训练,然后将其转移到多个已建立的视觉和语言任务——视觉问答、视觉常识推理、引用表达和基于字幕的图像检索——通过只对基础架构进行少量添加。与现有的特定任务模型相比,我们观察到任务之间的显着改进——在所有四个任务上都达到了最先进的水平。 我们的工作代表了从仅将视觉和语言之间的学习基础作为任务训练的一部分,转向将视觉基础视为可预训练和可转移的能力的转变。

核心思想:

使用概念字幕数据集(该数据集由 330 万张图像组成,这些图像具有从网络上启用 alt-text 的图像自动收集的弱关联描述性字幕)(包含图像和文本数据)

ViLBERT 基于 BERT 进行修改而来

修改了关键值注意机制,为 ViLBERT 开发了一个多模态共同注意转换模块

使用共同注意力转换器层进行通信,进行预训练,从而处理不同的下游任务

Method

ViLBERT 的整体架构如下图所示:

ViLBERT 的整体流程如下:

1)Image 与 Text 进行编码 Embed,输出 Xi 和 Xt 向量

2)Xt 向量进入 TRM(即Transformer 的编码架构)输出向量 Yt

3)Xi 和 Yt 进入 Co-TRM(即共同注意力转换层)分别输出向量,在进入 TRM 输出最终两个向量

4)此向量即为预训练向量,图片向量包含了文本信息,文本向量包含了图片信息,从而处理下游任务更准确

TRM

采用的是 Bert-base 模块(它有12 层转换器块,每个块的隐藏状态大小为 762 和 12 个注意力头)

作者发现,如果使用 Bert-large 效果更好

Co-TRM(共同注意力转换层)

Bert 的 Transformer 编码架构如图 a、Co-TRM 架构如图 b

传统 Transformer 的多头注意力机制是由查询为条件的键值注意机制决定的,大家自行学习一下就可以,本文不是重点,这里不详细介绍了

而本文提出的 Co-TRM 就是修改了这种以查询为条件的键值注意机制,本质上可以理解为,不同模态的不同键值交叉输入各自的 Transformer 编码结构中

如上图 b 所示,K、V 键值是输入到其他模态中的 TRM 中的,而 Q 这输入自己的 TRM 中

再简单的说一下描述一下:

即 Image 中的 TRM 输入,为自己的 Q 和 Text 的 V 和 K

Text 的 TRM 输入,为自己的 Q 和 Image 的 V 和 K

这里引申出第二个问题,那就是 Text 可以进入 Co-TRM 中,但是 Image 的编码向量,怎么进入 Co-TRM呢?

Image Representations

图片特征提取:Fast-R-CNN(带有 Restnet-101 为主干)

并且选择类别检测概率超过置信度阈值的区域,并保持在 10 到 36 个高分框之间。对于每个选定的区域 i,vi 被定义为来自该区域的均值池化卷积特征

并且添加空间位置信息,从而进行编码

从而实现输入 Co-TRM 的效果

Data Fusion

如下图 b ,将两种模态的数据进行融合操作,从而统一进行预训练

进行模态对齐操作:

1)对应位置进行乘积操作,输出向量 x

2)x 再进入全连接层,本质就是找对齐的方式,然后输出最终向量

Experiments

实验任务: ViLBERT 模型的 VCR 和 VQA 任务结果与现有的最先进和合理的架构消融进行比较

实验结果:我们完整的 ViLBERT 模型在所有任务中都优于特定于任务的最先进模型

实验任务:我们模型的深度相对于 Co-TRM→TRM 块数量的消融研究

实验结果:我们发现不同的任务在不同的网络深度下表现更好

实验任务:将 ViLBERT 的任务结果作为预训练期间使用的概念字幕数据集百分比的函数

实验结果:随着预训练数据集大小的增长,效果越来越好

写在最后

本文效果最优是基于注意力机制考虑了其他模态的注意力信息,但多模态数据融合仍然是乘法规则

<think>好的,我需要帮用户找到关于交叉注意力机制起源的论文,特别是来自.edu或.org域名的资源。首先,我得确认交叉注意力机制的基本概念和它在哪些领域中被首次提出。 交叉注意力机制通常与Transformer模型相关,尤其是在处理多模态任务时,比如图像描述生成或机器翻译。我记得Transformer模型最初是在2017年的论文《Attention Is All You Need》中提出的,但那里主要讨论的是自注意力机制。而交叉注意力可能是在后续的研究中扩展出来的,用于处理不同序列之间的交互,比如编码器和解码器之间的注意力。 接下来,用户需要的是“origin paper”或“introduction paper”,也就是最早提出这个概念或者详细介绍的论文。可能需要在Google Scholar或者学术数据库里搜索关键词,比如“cross-attention mechanism origin paper”或“cross-attention introduction paper site:.edu”。不过根据用户的要求,应该限制在.edu和.org的网站,这可能包括大学的研究页面或学术机构的资源。 另外,用户提供的引用内容中,引用[1]提到了优化方法,可能与多模态模型有关,引用[3]提到了异质性和混杂相关性,这可能和注意力机制处理不同数据源有关联。不过这些引用似乎不直接涉及交叉注意力的起源,可能需要进一步分析。 可能的步骤包括: 1. 确认交叉注意力机制的核心论文。 2. 查找这些论文是否来自.edu或.org域名。 3. 提供相关论文的引用和链接。 需要注意的是,原始Transformer论文可能没有直接称为“交叉注意力”,但其中的编码器-解码器注意力层实际上就是交叉注意力的应用。因此,可能最早的交叉注意力机制可以追溯到那篇论文。此外,后续的研究如Visual Transformer或BERT可能进一步应用了交叉注意力,但起源应该还是在Transformer模型中。 因此,用户可能需要参考《Attention Is All You Need》这篇论文,然后查找后续在多模态任务中应用交叉注意力的论文,比如在图像和文本处理中的使用案例。同时,确保这些论文的出处是.edu或.org的网站,比如大学的学术页面或研究机构的出版物。</think>关于交叉注意力机制(Cross-Attention Mechanism)的起源论文,其核心思想可追溯至Transformer模型的提出以及多模态任务中的应用。以下是关键文献与相关分析: ### 1. **Transformer模型与注意力机制的奠基** 交叉注意力的理论基础源于2017年的论文 **《Attention Is All You Need》**[^1]。该论文首次提出自注意力(Self-Attention)机制,并通过编码器-解码器结构中的注意力层实现了序列间的动态交互。尽管文中未直接使用“交叉注意力”这一术语,但编码器输出与解码器输入之间的注意力计算(即键值对来自编码器,查询来自解码器)已具备交叉注意力的核心特征。 ### 2. **多模态任务中的交叉注意力应用** 交叉注意力在视觉-语言任务中的早期应用可见于以下研究: - **《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》**(2019)[^2]:提出通过交叉注意力融合图像与文本特征,为多模态学习提供框架。 - **《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》**(2020)[^3]:进一步扩展交叉注意力机制,实现视觉与语言的对齐。 ### 3. **关键论文检索建议** 为查找.edu或.org域名的相关论文,可通过以下关键词组合搜索: - `"cross-attention mechanism" origin paper site:.edu` - `"cross-attention introduction" transformer site:.org` 推荐访问 **Google Scholar** 或 **arXiv**,并筛选来自大学(如Stanford.edu、MIT.edu)或研究机构(如ai.google、openai.com)的文献。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值