22年五月四号
摘要
我们关于物体的常识性知识包括其典型的视觉属性;我们知道香蕉通常是黄色或绿色的,而不是紫色的。文本和图像语料库受到报道偏见的影响,以不同程度的忠实度代表了这种世界知识。在本文中,我们研究了单模态(仅语言)和多模态(图像和语言)模型在多大程度上捕获了广泛的视觉显着属性。为此,我们为超过 5000 名受试者创建了涵盖 5 种属性类型(颜色、形状、材质、大小和视觉共现)的视觉常识测试 (ViComTe) 数据集。我们通过表明我们的接地颜色数据与 Paik 等人提供的众包颜色判断的相关性比未接地的纯文本数据更好,从而验证了该数据集。 (2021)。然后,我们使用数据集来评估预训练的单峰模型和多峰模型。我们的结果表明,多模态模型可以更好地重建属性分布,但仍然会受到报告偏差的影响。此外,增加模型大小并不能提高性能,这表明视觉常识的关键在于数据。
1 简介
人类语言理解发生在丰富的多模态环境中的观察结果导致人们越来越关注自然语言处理 (NLP) 中的视觉基础(Baltrusaitis 等人,2019 年;Bisk 等人,2020 年),从而推动了传统语言与传统语言理解之间的比较。单模态纯文本模型和同时接受文本和图像输入的多模态模型。在这项工作中,我们探索单峰和多峰模型能够在多大程度上捕获五种关系类型的常识视觉概念:颜色、形状、材料、大小和视觉共现(参见图 1)。我们进一步探讨了这种能力如何受到报告偏见的影响(Gordon 和 Van Durme,2013),即大型语料库多报或少报事件的倾向。我们将视觉常识定义为有关通用视觉概念的知识,例如“旋钮通常是圆形的”,我们通过潜在属性(例如圆形、方形等)的频率分布来衡量这一知识。直观的语言模型应该能够捕获这些属性。我们的颜色、形状、材质和共现数据是从视觉基因组(Krishna et al., 2016)中挖掘的,我们的尺寸数据是从对象列表中创建的。它们包含大量每个对象属性分布和“对象属性”对的示例。
白等人。 (2021) 使用人工注释的颜色数据集 (CoDa) 评估语言模型的颜色感知,发现报告偏差会对模型性能产生负面影响,而多模式训练可以减轻这些影响。在这项工作中,我们确认了这些发现,同时将评估扩展到更广泛的视觉显着属性,从而为视觉常识提供了更全面的指标。为了从语言模型中引出视觉常识,我们利用软提示调整(Qin 和 Eisner,2021),它通过梯度下降为我们探索的每个模型和关系类型训练最佳模板。我们还利用知识蒸馏来增强纯文本模型的视觉常识能力,其中视觉语言模型充当老师。
这项工作的主要贡献是:(1)我们设计了一个综合分析数据集 ViComTe,用于探索英语视觉常识,适用于任何语言模型; (2) 我们使用 ViComTe 研究模型捕获视觉显着属性的经验分布的能力。我们研究了单模态语言模型、多模态视觉语言(VL)模型以及 VL 模型的知识蒸馏版本; (3)我们分析了报告偏差对基于视觉的数据集和模型与不基于视觉的数据集和模型的影响。
图 1:我们比较了单模态和多模态模型捕获视觉常识知识的能力。常识知识根据五种关系类型进行评估:颜色、形状、材料、大小和视觉共现。我们将模型输出与 ViComTe 的黄金分布进行比较,该黄金分布是从 Visual Genome 中挖掘的。
2 相关工作
2.1 视觉语言建模
视觉语言 (VL) 建模的最新进展使得基准任务取得了更大的成功。大多数 VL 模型通过自注意力 Transformer 的跨模态训练来学习联合图像和文本表示,包括 LXMERT (Tan and Bansal, 2019)、ViLBERT (Lu et al., 2019)、VisualBERT (Li et al., 2019) 、UNITER (Chen et al., 2020) 等。 Oscar (Li et al., 2020) 另外使用图像中的对象标签作为锚点,以促进图像文本对齐和 VinVL 的学习 (Zhang et al., 2021)提出了一种改进的目标检测模型。 CLIP(Radford et al., 2021)通过从大型互联网语料库(图像、文本)对中预测字幕-图像对齐来进行学习。
虽然我们的工作使用文本提示调整技术,但也有视觉提示工程的工作,以增强预训练的视觉语言模型的性能。周等人。 (2021) 将提示中的上下文建模为连续表示,并学习优化该上下文。姚等人。 (2021)开发了一个跨模式提示调整框架,将视觉基础重新表述为图像和文本的填空问题。
2.2 视觉常识
在学习视觉常识的早期尝试之一中,Vedantam 等人。 (2015)基于与已知合理断言的相似性,使用视觉场景和随附文本,以(obj1,relation,obj2)的形式衡量常识断言的合理性。泽勒斯等人。 (2021)通过互动学习身体常识,并将这些知识用于基础语言。弗兰克等人。 (2021) 探讨 VL 模型是否已经学会通过跨模态输入消融从两种模态构建跨模态表示。
请注意,我们对视觉常识的定义与 Zellers 等人的定义不同。 (2019)ÿ