论文翻译：NAACL2019 Probing the Need for Visual Context in Multimodal Machine Translation

最新推荐文章于 2022-07-04 19:39:17 发布

Xiami2019

最新推荐文章于 2022-07-04 19:39:17 发布

阅读量497

点赞数

分类专栏：论文笔记文章标签： NLP NAACL 论文翻译

论文笔记专栏收录该内容

1 篇文章

订阅专栏

2019NAACL最佳短论文

翻译：Xiami2019

原文链接：https://arxiv.org/abs/1903.08678

摘要：当前MMT模型认为视觉模态要么是没有必要的要么是只要很有限的提升。

作者假设这是因为当前这项认为的唯一可用的数据集中的句子都是很简单的，很短且有很多重复的句子的，原文本就可以提供足够的上下文信息的结果（不需要再用图像进行补充）。然而，在一般的情况下，作者相信将文本与视觉信息结合来用于现实中的翻译是可能的。在这篇文章中，作者通过系统的分析探讨了视觉模态在最先进的MMT模型中的贡献，其中，作者部分地剥夺了模型在原文本方面提供的上下文信息。作者的结果表明了在有限的文本提供的上下文语境下，模型有能力利用视觉的输入来产生更好的翻译。这个结果反驳了当前的观点：MMT模型会由于图像特征的质量或者我们整合图像的方式而忽略视觉模态。

1.Introduction：

简介多模态翻译的背景

三个多模态翻译的版本：

1.使用卷积特征的多模态attention；

2.具有spatially-unware全局特征的跨膜态交互；

3.基于目标检测网络的区域特征集成；

然而，关于视觉模态的贡献度的结论还不清楚。Gronroos团队认为他们的多模态的带来的增益是适度的(modest)，并把最大增益归因于额外平行语料的使用。

Lala团队观测到他们的多模态词义消除方法和单语料模态的对应部分没有显著的不同。

最近一次共享人物的组织者认为迄今为止所探索出的多模态继承框架造成在自动评测或是人类评估上都成比较小的改变(marginal changes)

同样的，Elliott团队证明了MMT模型的翻译结果即使在来自不配对的图片特征的存在下也不会有特别严重的损失。

这些实例研究结果看起来似乎表明了图像在模型中被忽略，并暗示了这是由于表示（图像特征）或是建模（结合的方法）的限制。

作者推测对于语言的主导（在多模态模型中）的最合理原因是——至少是在Multi30K数据集中——的原因是源文本是足够perform翻译的。最终阻止了视觉信息介入学习的过程中。为了调查这个假设，作者介绍了几种输入讲解方案（消减源文本的信息）并且重温了最先进的MMT模型来得到他们在这些输入降解方法下的表现。作者通过故意地从不相关的图像中提取视觉特征来进一步探查视觉的敏感性。作者的结果表明，MMT模型在语言上下文稀缺的情况下成功地利用了视觉模态，但在完成句子时确实对这种模态不太敏感。（意思应该是用不配对的图片效果也差不多）

2.输入降解（Input Degradation）

作者提出了几种对输入语言模态的降解方式来模拟句子可能缺少重要信息的情况。对于训练集和测试集都需要做degradation。

颜色剥夺()：

将源语言中所有代表颜色的词都换为token [v]

假设是视觉特征可以提供更好的颜色信息。

实体掩蔽(Entity Masking):

利用搜集的Flickr30K的中的实体，将源语言中的这些名词掩蔽（这些实体的信息由图像提供）

渐进式掩蔽（Progressive Masking）

对于一个句子

全部掩蔽

留下两个，其他掩蔽

留下四个，其他掩蔽

。。。

直到30

在这样的源语言上训练的翻译模型相当于一个语言模型，但一个MMT模型就成了一个可以访问期望句子长度信息的图像描述器。

视觉敏感性：

受Elliott的启发，作者试验了使用不匹配的图像的的解码过程，为了理解多模态系统对于视觉模态有多敏感。这是通过在显式地违反测试时不同模态间的语义一致性来实现的（即使用不配对的语言和图片）。具体来说，作者以反向样本顺序来提供视觉特征来打破句子和图像的对齐。因此，如果对于视觉模态比较敏感的话，模型在这种情景下测试指标可能会恶化。

3. 实验设置

数据集：

Multi30K的english-french部分，使用训练集和验证集进行训练。使用test2016和test2017测试集分别作为Eearly-stopping的指标以及模型的评估。对于entity masking，作者还原了Flickr30K中的默认划分并且在test2016上进行模型评估。因为test2017没有进行实体的标注。使用单词级别的词表（没用使用BPE分词技术）English：9951，French：11216 使用Moses脚本来进行小写化，正则清洗，并将有连词符的词切开。

视觉特征：使用在ImageNet上预训练的ResNet-50作为图像encoder.使用最后一层卷积层的结果2048x8x8，并且在深度维度上采用L2正则化。对于不采用attention机制的模型，使用2048维的global average pooled version（即pool5的输出）

模型：baseline模型是一个注意模型：(Bahdanau et al., 2014) 。采用两层的双向GRU作为编码器，两层的conditional GRU作为解码器。解码器的第二层接收attention的输出作为输入。

对于MMT模型，作者探究了基本的多模态attention(DIRECT)和它的分级扩展(HIER)。前者直接将文本和视觉上下文向量进行线性映射来得到多模态的上下文向量，后者采用两个独立的attention层进行attention。

最终，作者还试验了encoder-decoder初始化(INIT)。使用pool5特征的非线性变化来初始化编解码器。

超参数：省略。

4.实验结果，讨论：省略。

5.讨论和结论：

作者的结果表明，这些提出的模型在可以用模态是互补的而不是冗余的情况下可以整合视觉模态。