多语言英德图像描述
摘要
我们引入Multi30K数据集来刺激多语言多模态研究。图像描述的最新进展几乎完全在英语语言数据集上得到证实,但图像描述不应局限于英语。该数据集扩展了Flickr30K数据集,其中
i)专业翻译人员在英语描述子集上创建的德语翻译
ii)独立于原始英语描述的众包描述。
我们概述了如何将这些数据用于多语言图像描述和多模式机器翻译,但我们预计这些数据将用于更广泛的任务。
1 介绍
图像描述是自然语言处理(NLP)和计算机视觉(CV)交叉点的核心挑战之一(Bernardi等人,2016)。这项任务仅在单语英语环境中受到关注,这得益于英语数据集的可用性,例如Flickr8K(Hodosh等人,2013年)、Flickr30K(Young等人,2014年)和MS COCO(Chen等人,2015年)。然而,图像描述的可能应用对于所有语言都是有用的,例如使用自然语言搜索图像,或者为视力受损的Web用户提供替代描述文本。
我们介绍了一个大规模的英语和德语句子图像配对数据集,作为研究多语言多模态数据的价值和特征的第一步。Multi30K是Flickr30K数据集(Young等人,2014)的扩展,包含31014个德语翻译的英语描述和155070个独立收集的德语描述。翻译是从专业签约的翻译人员那里收集的,而描述是从未经培训的众工那里收集的。这些语料库之间的关键区别在于不同语言中句子之间的关系。在翻译的语料库中,我们知道两种语言的句子之间有很强的对应关系。在描述语料库中,我们只知道句子,不管是哪种语言,都应该描述同一个图像。
一个多语言图像与句子配对的数据集拓宽了多模态NLP研究的范围。多语言数据的图像描述也可以看作是多模态环境下的机器翻译。这为机器翻译研究人员(Koehn等人,2003年;Chiang,2005年;Sutskever等人,2014年;Bahdanaau等人,2015年)处理多语言多模态数据开辟了新途径。图像——使用单语多模态数据集对句子进行排序(Hodosh等人,2013年,除其他外)也是多语言建模的一项自然任务。
通过专业地将英语翻译成目标语言,创建了仅有的与多语言句子配对的图像数据集:IAPR-TC12,包含20000张英语-德语描述的图像(Grubinger等人,2006年),以及1000张日文-英语描述的图像的Pascal句子数据集(Funaki和Nakayama,2015年)。Multi30K数据集比这两个数据集都大,并且包含独立句子和翻译句子。我们希望这一数据集将引起NLP和CV研究的广泛兴趣,并预计这些社区将把数据用于我们无法预见的更广泛的任务。
2 Multi30K数据集
Flickr30K数据集包含31014张来自在线照片共享网站的图像(Young等人,2014年)。每张图片都有五个英文描述,它们来自亚马逊1。该数据集包含145000个训练、5070个验证和5000个测试描述。Multi30K数据集通过翻译和独立的德语句子扩展了Flickr30K数据集。
2.1翻译
这些翻译是从通过德国一家成熟的语言服务机构签约的专业英语-德语翻译人员那里收集的。 图1显示了数据类型之间的差异示例。我们收集了每幅图像的一个翻译描述,共有31014个翻译。为了确保描述长度的均匀分布,英语描述是根据其相对长度选择的,具有相同数量的最长、最短和中等长度的源描述。我们总共支付了E23000英镑来收集数据(每个字0.06英镑)。
翻译人员被展示了一个英语句子,并被要求在看不到图片的情况下,用德语给出一个正确、流畅的翻译。
人为的把Flickr30K的英语翻译成Multi30K的德语
我们决定不向翻译人员展示图像,以使其尽可能接近标准翻译任务,同时使此处收集的数据与第2.2节中所述的独立描述不同。
2.2独立描述
这些描述是通过 Crowdflower 平台从众包工作人员那里收集的。 我们在 Flickr30K 数据集中为每个图像收集了五个描述,总共有 155,070 个句子。
向工人展示了(Hodosh 等人,2013 年)使用的数据收集界面的翻译版本,如图 2 所示。我们翻译了界面以使任务尽可能类似于英语句子的众包。 这些说明由其中一位作者翻译,并由一位德国本土博士生检查。
共有185名工人参加了为期31天的任务。我们每天将任务分成1000张随机选择的图像,以控制数据质量并防止工人疲劳。
工人需要获得德语技能认证,并且至少是Crowdflower 2级工人:他们至少参与了10个不同的Crowdflower工作,通过了至少100个质量控制问题,工作接受率至少为85%。
这些描述是以每项工作五张图片的形式分批收集的。每一张图片都是从当天1000张图片中随机抽取的,工作人员每天最多只能写250个描述。我们向员工支付了每项描述0.05美元的工资,并限制他们提交每项工作的速度超过90秒,以阻止劣质/低质量的工作。(计算速度为每小时40个工作岗位,即每小时200个描述。)我们将Crowdflower配置为自动禁止工作速度超过此速度的用户。因此,理论上每小时的最高工资为10美元/小时。我们总共支付了9591.24美元用于收集数据和支付众花平台费用。
在收集数据的过程中,我们通过手动检查描述的子集和自动检查来评估质量。
我们检查了写句子少于五个单词的用户提交的内容,以及类型与标记比率高的用户提交的内容(以检测重复)。我们还使用了字符级的6-gram LM托夫拉描述,具有高度的复杂性,这对于捕捉无意义的句子非常有效。一般来说,我们不必禁止或拒绝许多用户,总体描述质量很高。
向众工展示的德语说明是从原始说明翻译而来的
2.3翻译VS独立的描述
我们现在分析翻译语料库和描述语料库之间的差异。在这个分析中,所有的句子都去除了标点符号,并使用摩西特鲁卡斯尔(Moses truecaser)进行了特鲁卡斯(truecaser)分析。pl脚本通过Europarl v7和新闻评论v11英语-德语平行语料库进行训练。
表1显示了语料库之间的差异。德语翻译比独立描述长(11.1对9.6个单词),而选择翻译的英语描述平均略短于Flickr30k的平均值(11.9对12.3个单词)。当我们将德语翻译数据集与德语描述数据集中相同数量的句子进行比较时,我们发现翻译中的单词类型也更多(19.3K vs.17.6K),而且更多的单字类型只出现一次(11.3K vs.10.2K;在这两个数据集中,单字占词汇的58%)。因此,这些译文的词汇量更广,尽管作者人数较少。英语数据集(所有描述与选择翻译的描述)显示出类似的趋势,表明这些差异可能是选择相同数量的短、中、长英语句子进行翻译的结果。
2.4 English vs. German
英文图像描述通常比德文描述长,无论是字数还是字符数。 请注意,在测量字符时差异要小得多:德语使用的单词少了 22%,但字符只少了 2.5%。 然而,我们在翻译语料库中观察到不同的模式:德语使用的单词比英语少 6.6%,但字符多 17.1%。 德语描述和翻译语料库的词汇量是英语语料库的两倍多。 此外,德国语料库的单例是两到三倍。 这可能是由于德语中更丰富的形态变化以及单词复合。
3 讨论
Multi30K数据集立即适用于广泛任务的研究,包括但不限于自动图像描述、图像-句子排序、多模态和多语言语义以及机器翻译。
3.1 Multi30K for Image Description (没用)
用于图像描述的深度神经网络通常将视觉特征集成到递归神经网络语言模型中(Vinyals等人,2015;Xu等人,2015)。Elliott等人(2015年)演示了如何构建多语言图像描述模型,该模型可以在单语图像描述模型之间学习和传递特征。他们在IAPR-TC12数据集(Grubinger et al.,2006)上进行了一系列与德语翻译一致的图像实验,结果表明,英语和德语图像描述都可以通过从多模态神经语言模型中转移特征来改进,该模型经过训练以生成另一种语言的描述。Multi30K数据集将支持这方面的进一步研究,使研究人员能够处理每个图像具有多个参考的更大数据集。
3.2 Multi30K for Machine Translation(没用)
机器翻译通常只使用文本数据执行,例如新闻数据、Europarl语料库或从Web(CommonCrawl、Wikipedia等)获取的语料库。Multi30K数据集使得在多模态数据(如图像或视频)与文本一起观察的环境下,进一步开发机器翻译成为可能。使用多模态信息进行机器翻译的潜在优势包括能够更好地处理模棱两可的源文本,避免(未翻译)目标语言词汇表外的单词(Calixto等人,2012)。Hitschler和Riezler(2016)在目标端翻译重排模型中展示了多模态特征的潜力。他们的方法最初是在大型纯文本翻译copora上进行训练,然后使用少量域内数据(例如我们的数据集)进行微调。我们期望各种翻译模型可以适应以多模态数据为特征的对数线性模型或神经机器翻译模型中的特征向量。
4 结论
我们介绍了Multi30K:一个用于跨学科机器学习研究的大规模多语言多模态数据集。我们的数据集是流行的Flickr30K数据集的扩展,带有德语描述和专业翻译。
这些描述是从一个众包平台收集的,而翻译则是从专业签约的翻译人员那里收集的。
这些差异是经过深思熟虑的,是在不同语境下研究多语言多模态数据的更大范围的一部分。通过将Young等人(2014)使用的说明翻译成德语,收集的描述尽可能类似于原始Flickr30K数据集。收集译文时,没有向译者展示图像,以尽可能接近标准翻译任务。
翻译后的数据集和描述数据集之间存在很大差异。两种语言的翻译包含大致相同数量的标记,句子长度大致相同。这些特性使它们适合机器翻译模型。描述数据集在平均句子长度和每种语言的词类数量方面有很大不同。这可能会带来不同的工程和科学挑战,因为描述是独立收集的语料库,而不是句子级对齐的语料库。
在未来,我们希望在更广泛的语言范围内研究多语言多模态,例如超越印欧语系。我们呼吁社区与我们合作,创建大规模多语言多模态数据集。