『论文笔记』Visually Grounded Reasoning across Languages and Cultures

Visually Grounded Reasoning across Languages and Cultures


一句话总结


作者认为以ImageNet为代表的数据集由于数据均来源自英文词库,天生带有英语的偏置,因此提出了多文化多语言的数据集MaRVL,以推动领域发展。


关于本文:

来自EMNLP 2021的Best Paper,今年EMNLP的长、短、demo最佳论文均为数据集相关文章,可见算法做到一定程度之后,领域自然又会将目光聚焦在数据身上,算法-数据集-算法-数据集,或许是一个必然的上升螺旋吧。

另一方面,多模态也渐渐地成为了NLP发展的一个重要趋势,毕竟人类在理解语言的时候总离不开图像感知的参与。


导论


Motivation:

众所周知,ImageNet数据集为CV领域开辟了道路,现今广泛使用的视觉语言数据集和预训练编码器均是基于ImageNet建立,或者从中吸取灵感而来的。然而,由于其数据来源主要是英文的词汇库和图像查询,会带有北美或西欧的数据偏置。

有证据表明ImageNet数据的来源(origin)与内容(content)都存在着某种倾向,也有人曾为了纠正这种倾向提出干预数据,过滤、重新平衡一些类别,但若是原分布本就未能涵盖多语言多文化,这种方法便不足以解决这个问题。

作者用一章的篇幅论述了ImageNet的局限性以及偏置的来源。

简单来说,在局限性方面,作者认为ImageNet数据集概念不普遍概念过于特定于英语。偏置来源于 概念的选择(其中1K个随机选择的概念可能有所偏向)、候选图像检索(检索到的图像不符合真实世界分布)、图像过滤(完全取决于AMT标注者)。


Contribution:

作者设计了一种新的 protocol 来构建一个代表更多语言和文化的 ImageNet 风格的层次结构,让概念和图像的选择完全由母语人士驱动,而不是自动抓取它们。具体来说,这些人关注的是一组不同类型的语言,即印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语。

他们通过要求注释者比较对比 图像对 来引出对图像的母语描述,任务是确定这些基于图像的描述是真是假。因为这个任务需要跨模态的信息整合,以及深层的语言理解,而不仅仅是匹配表面特征。

借助这种方法,他们创建了一个基于视觉、语言多元文化推理(Multicultural Reasoning over Vision and Language,MaRVL)的多语言数据集。

MaRVL数据示例
可以看出,概念、图像以及语言的多样性共同组成的领域变化使得MaRVL数据集极具挑战性。


MaRVL:数据标注


数据集的创建一共分为五步

语言选择

作者选择了五种语言,分别是印尼语、简体中文、斯瓦希里语、泰米尔语和土耳其语,从类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。另外,还覆盖了不同的写作系统并包含了低资源语言。

普适性概念选择

特定语言概念选择

每种语言雇了五个Native Speaker为他们所属文化的每一个语义域的5到10个特定概念提供Wiki百科页面的链接。

概念需要满足两个关键需求:

  • 在使用这种语言的人群中 常见或有代表性
  • 最好是以物质形式存在且具体的

比如说,中文的古筝

图像选择

描述标注

从图像集中随机选8张图像,随机组成4个图像对。

每位标注者被要求写一个描述,此描述对于两个图像对为True,两个图像对为False。

在最后的数据集中,一个数据点包含两张图像,一个描述,和一个True/False标签。


数据集分析


图像分布

作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取,提取后使用UMAP将它们的嵌入分布可视化。

图像分布
结果发现,MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。

同时,也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较,结果表明在不同语言间也有着不同的分布,这主要是由于两者特有的概念集合。

💡 UMAP 通过聚类的方式将图像分布可视化


实验


两个评价指标:准确率、一致性(对所有对应图像对的预测都是正确的唯一句子的比例。)

实验结果
可以看到,多种预训练模型在MaRVL的Zero-shot实验中效果下降明显,对于资源丰富的中文一样如此。相比之下,Translate test实验有着不同程度的提升,但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL数据的OOD本质。

Translate test实验 使用机器翻译将各种语言翻译为英文


解耦分布变化

MaRVL的挑战性主要在两方面:

  • 跨语言迁移
  • 分布外概念 OOD

作者又设计了一组控制实验,他们将MaRVL-ZH人工翻译成了英语,去除了机器翻译所带来的任何可能的混杂因子。

控制实验
最左栏结果表明,和Translate test相比,除了mUNITER之外每个模型都有1-2%的提升,因此翻译是很可靠的。那么,导致模型下降10%的便是那些OOD概念了。

💡 做这个实验是想要控制机器翻译对Translate test实验的影响,证明是OOD概念导致的效果下降。

从NLVR2测试集取样250个唯一的描述,对应着1000个数据点,记为NLVR2-EN,将它们人工翻译成简体中文,记为NLVR2-ZH,再进行两次实验,即图中右两栏。

可以看到,mUNITER和xUNITER的准确率下降了约16%,因此,这种gap可以归因于从英语到汉语的跨语言迁移。

最后,作者建立了跨语言迁移第三种可能方法的baseline——translate train,将NLVR2的训练集机器翻译为中文,并在MaRVL-ZH上验证,发现mUNITER和xUNITER的结果和Translate test实验时很接近,再一次说明 缺乏文化相关概念阻碍了泛化。

💡 这一段的论述和实验思路并不能说特别清晰,感觉两个难点OOD概念和跨语言迁移并不能拆开来讲。


个人理解为,跨语言迁移这一过程会丢失文化相关概念,而每一种语言都拥有特有的OOD概念,因此有着准确率的gap。


进而强调多语言多文化数据集的重要性。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值