(五十六):Integrating Multimodal Information in Large Pretrained Transformers
- 出处:ACL 2020: 2359-2369
- 代码:https://github.com/WasifurRahman/BERT_multimodal_transformer
- 题目:在大型预训练变压器中集成多模式信息
- 主要内容:介绍了一种有效地微调多模态语言预训练的大型Transformer模型的方法。使用提出的多模态自适应门(MAG), BERT和XLNet在视觉和声学模式下成功地进行了微调。
MAG本质上把非语言行为作为一个具有轨迹和大小的向量,随后在预先训练的变形模型中使用它来转换词汇表征。MAG的一个独特特点是,它不改变BERT或XLNet的原始结构,而是作为两个模型的额外部分。
Abstract
最近基于transformer的上下文词表示,包括BERT和XLNet,在NLP的多个学科中显示了最先进的性能。在特定任务数据集上对训练有素的上下文模型进行微调,是实现下游卓越性能的关键。
虽然对这些预先训练过的模型进行微调对于词汇应用程序(只有语言模态的应用)是很简单的,但对于多模态语言(NLP中关注于建模面对面交流的一个日益增长的领域)却不是那么简单。预先训练过的模型没有必要的组成部分来接受视觉和听觉两种额外的模式。
在本文中,我们提出了一个BER