22年五月四号
摘要
我们关于物体的常识性知识包括其典型的视觉属性;我们知道香蕉通常是黄色或绿色的,而不是紫色的。文本和图像语料库受到报道偏见的影响,以不同程度的忠实度代表了这种世界知识。在本文中,我们研究了单模态(仅语言)和多模态(图像和语言)模型在多大程度上捕获了广泛的视觉显着属性。为此,我们为超过 5000 名受试者创建了涵盖 5 种属性类型(颜色、形状、材质、大小和视觉共现)的视觉常识测试 (ViComTe) 数据集。我们通过表明我们的接地颜色数据与 Paik 等人提供的众包颜色判断的相关性比未接地的纯文本数据更好,从而验证了该数据集。 (2021)。然后,我们使用数据集来评估预训练的单峰模型和多峰模型。我们的结果表明,多模态模型可以更好地重建属性分布,但仍然会受到报告偏差的影响。此外,增加模型大小并不能提高性能,这表明视觉常识的关键在于数据。
1 简介
人类语言理解发生在丰富的多模态环境中的观察结果导致人们越来越关注自然语言处理 (NLP) 中的视觉基础(Baltrusaitis 等人,2019 年;Bisk 等人,2020 年),从而推动了传统语言与传统语言理解之间的比较。单模态纯文本模型和同时接受文本和图像输入的多模态模型。在这项工作中,我们探索单峰和多峰模型能够在多大程度上捕获五种关系类型的常识视觉概念:颜色、形状、材料、大小和视觉共现(参见图 1)。我们进一步探讨了这种能力如何受到报告偏见的影响(Gordon 和 Van Durme,2013),即大型语料库多报或少报事件的倾向。我们将视觉常识定义为有关通用视觉概念的知识,例如“旋钮通常是圆形的”,我们通过潜在属性(例如圆形、方形等)的频率分布来衡量这一知识。直观的语言模型应该能够捕获这些属性。我们的颜色、形状、材质和共现数据是从视觉基因组(Krishna et al., 2016)中挖掘的,我们的尺寸数据是从对象列表中创建的。它们包含大量每个对象属性分布和“对象属性”对的示例。
白等人。 (2021) 使用人工注释的颜色数据集 (CoDa) 评估语言模型的颜色感知,发现报告偏差会对模型性能产生负面影响,而多模式训练可以减轻这些影响。在这项工作中,我们确认了这些发现,同时将评估扩展到更广泛的视觉显着属性,从而为视觉常识提供了更全面的指标。为了从语言模型中引出视觉常识,我们利用软提示调整(Qin 和 Eisner,2021),它通过梯度下降为我们探索的每个模型和关系类型训练最佳模板。我们还利用知识蒸馏来增强纯文本模型的视觉常识能力,其中视觉语言模型充当老师。
这项工作的主要贡献是:(1)我们设计了一个综合分析数据集 ViComTe,用于探索英语视觉常识,适用于任何语言模型; (2) 我们使用 ViComTe 研究模型捕获视觉显着属性的经验分布的能力。我们研究了单模态语言模型、多模态视觉语言(VL)模型以及 VL 模型的知识蒸馏版本; (3)我们分析了报告偏差对基于视觉的数据集和模型与不基于视觉的数据集和模型的影响。
图 1:我们比较了单模态和多模态模型捕获视觉常识知识的能力。常识知识根据五种关系类型进行评估:颜色、形状、材料、大小和视觉共现。我们将模型输出与 ViComTe 的黄金分布进行比较,该黄金分布是从 Visual Genome 中挖掘的。
2 相关工作
2.1 视觉语言建模
视觉语言 (VL) 建模的最新进展使得基准任务取得了更大的成功。大多数 VL 模型通过自注意力 Transformer 的跨模态训练来学习联合图像和文本表示,包括 LXMERT (Tan and Bansal, 2019)、ViLBERT (Lu et al., 2019)、VisualBERT (Li et al., 2019) 、UNITER (Chen et al., 2020) 等。 Oscar (Li et al., 2020) 另外使用图像中的对象标签作为锚点,以促进图像文本对齐和 VinVL 的学习 (Zhang et al., 2021)提出了一种改进的目标检测模型。 CLIP(Radford et al., 2021)通过从大型互联网语料库(图像、文本)对中预测字幕-图像对齐来进行学习。
虽然我们的工作使用文本提示调整技术,但也有视觉提示工程的工作,以增强预训练的视觉语言模型的性能。周等人。 (2021) 将提示中的上下文建模为连续表示,并学习优化该上下文。姚等人。 (2021)开发了一个跨模式提示调整框架,将视觉基础重新表述为图像和文本的填空问题。
2.2 视觉常识
在学习视觉常识的早期尝试之一中,Vedantam 等人。 (2015)基于与已知合理断言的相似性,使用视觉场景和随附文本,以(obj1,relation,obj2)的形式衡量常识断言的合理性。泽勒斯等人。 (2021)通过互动学习身体常识,并将这些知识用于基础语言。弗兰克等人。 (2021) 探讨 VL 模型是否已经学会通过跨模态输入消融从两种模态构建跨模态表示。
请注意,我们对视觉常识的定义与 Zellers 等人的定义不同。 (2019),其中模型需要基于图像进行常识推理。我们对视觉常识的定义更类似于刻板的默认假设(Prince,1978),即人类对通用概念持有的命题信念,例如“狗必须被遛”。威尔等人。 (2020) 探索此类人类默认假设的神经语言模型,并证明该模型的成功。我们将这种直觉扩展到视觉概念,并探索视觉信息如何帮助语言模型捕获此类假设。
还有关于 McRae 特征规范的早期工作(McRae 等人,2005),其中人类注释者写下了描述单词含义的属性。例如,“汽车”可以标记为“有四个轮子”,“苹果”可以标记为“是绿色的”。西尔伯勒等人。 (2013) 将 McRae 数据集扩展为一组图像及其视觉属性,并构建基于视觉的分布式模型,该模型可以用视觉属性表示图像特征。
朱等人。 (2020)研究了视觉问答模型中的“语言先验”问题,其中模型倾向于根据数据中的词频进行回答,而忽略图像内容。在这项工作中,我们探讨了在没有视觉输入的情况下,这种语言先验的招募程度。
2.3 报告偏差
BERT(Devlin 等人,2019)等预训练语言模型在数十亿个文本标记上进行训练,捕获训练语料库中存在的统计规律。然而,他们的文本训练数据可能会受到报告偏差的影响,其中文本中特定事件和属性的频率分布可能无法反映此类属性的现实世界分布(Gordon 和 Van Durme,2013)。例如,虽然草通常是绿色的,但这在网络语料库中可能没有得到充分报道(因为它被认为是真实的),虽然摩托车事故在现实世界中可能更常见,但飞机事故在新闻文本中被提及得更多(戈登和范德姆,2013)。米斯拉等人。 (2016)强调了“以人为中心”图像注释中的报告偏差,并发现注释中的噪声表现出可以建模的结构。
3 数据集:ViComTe
3.1 数据集挖掘
对于每个关系颜色、形状、材质、大小和对象共现,我们的数据采用从每个主题的对象分布中提取的(主题,对象)元组的形式。目标是从主题和关系预测对象及其分布。表 1 总结了每个关系的类和主客体对的数量。
颜色、形状、材质 对于颜色、形状和材质,主语是名词,宾语是名词的颜色、形状或材质属性,从视觉基因组 (VG) 的属性中挖掘出来 (Krishna et al., 2016) ).3 我们为每个关系手动创建一个单词属性列表,并且只记录与特定属性匹配次数超过阈值次数的 VG 主题,以避免数据集中的噪音。颜色、材质和形状的阈值分别为 5、2 和 1,根据 VG 中每个关系的属性的可用性进行选择。 VG属性的过滤步骤如下: (1)属性“Y color/made/shape”被视为“Y”; (2)复合属性只选择最后一个词(例如将“forest green”视为“green”); (3)相似的属性被合并到一个主属性类中(例如“栗色”和“深红色”变成“红色”)。
上述过程生成每个主语名词的属性集的分布。根据该分布,为每个主题生成一个(主题,对象)数据实例,其中对象是与其最相关的属性。有关示例,请参见表 1 的前三行。
Size Size 分为 size_smaller 和 size_larger,其中主语是名词,宾语是分别比主语更小或更大的另一个名词。为了形成尺寸数据集,我们获得了 VG 中出现的一组具体名词,我们手动将其分为 5 个尺寸类别(微小、小型、中型、大型和巨大)。每个类别中的典型物体分别包括药丸、书籍、桌子、狮子、山。我们从不同类别中随机选择两个名词来形成(主语,宾语)对。
视觉共现 视觉共现数据集的生成方式与颜色、形状和材质数据集类似。共现分布是从 Visual Genome 中提取的,其中记录了在同一场景图中一起出现超过 8 次的两个对象,并为每个对象生成一个(主题,对象)实例,其中对象是共同出现的名词- 与主题相关最多。
3.2 数据分组
继 Paik 等人之后。 (2021),我们将颜色、形状和材质数据集分为三组:SINGLE、M ULTI 和 ANY。 SINGLE 组适用于最常见属性覆盖超过 80% 概率的对象,例如,雪的颜色几乎总是白色。 MULTI 组被定义为不属于 SINGLE 组的受试者,其中超过 90% 的概率属于前 4 个属性类别,例如图 1 中企鹅的颜色。其余受试者属于 ANY 组。 SINGLE 组的较低模型性能表明报告偏差的影响。例如,如果模型无法正确捕获雪的颜色分布,很可能是因为雪的颜色在训练语料库中报告的概率很低,因为人们默认情况下雪是白色的。
3.3 模板
为了引出模型响应并从文本中提取目标对象和分布,我们为每个关系手动设计一组模板。颜色、形状和材质各有 7 个模板,大小有 8 个,视觉共现有 4 个。有关示例模板,请参阅表 1。
3.4 维基百科数据
为了比较基于文本的数据和基于视觉的数据,我们从维基百科数据中挖掘颜色、形状和材质数据集,这些数据集通常用于模型预训练。为了挖掘这些基于文本的数据集,我们组合了 VG 中的主题集,再次将手动属性列表作为对象,如果该对与任何预定义模板匹配,则提取(主题,对象)对。在第 3.5 节中,我们将展示 VG 挖掘数据集相对于基于文本的数据集的优势。
3.5 数据集评估
为了确保 ViComTe 的有效性,我们将颜色数据集与人工注释的 CoDa 数据集(Paik 等人,2021)进行比较,我们假设该数据集接近真实世界的颜色分布,并且报告偏差最小。我们发现与 CoDa 具有相当强的相关性,这表明 ViComTe 数据集是人类注释的良好且具有成本效益的近似值。
指标 我们报告了两个分布之间的 Spearman 排序相关性,并在所有受试者中取平均值。使用 Spearman 相关性而不是 Pearson 相关性,因为就我们的目的而言,对象分布的排名比精确值更重要,而精确值可能会因数据可变性而发生变化。 top-1 准确度 (Acc@1) 是源分布中与目标分布中的概率最高的对象的百分比。在后面的章节中评估模型分布时也会使用这两个指标。
分析表 2 通过与人工注释数据集 CoDa 进行比较,显示了 ViComTe 和 Wikipedia 颜色数据集评估的详细结果。我们可以看到 ViComTe 与 CoDa 具有更高的 Spearman 相关性,并且 SINGLE 组的 top-1 准确度也更高。 ANY 组的相关性预计较低,因为 ANY 组中的对象可以有多种可能的颜色。
两个数据集中都存在报告偏差,因为单组受试者的平均出现次数比多组和任意组受试者的平均出现次数少得多。与直觉相反,对于 ViComTe 来说,高度相关的单组受试者的平均出现次数比低相关性的受试者要少。这与我们的预期相反,即更频繁的对象将更好地反映人类感知的分布,并且可以通过单个对象即使没有大量数据也更容易表示来解释。
维基百科分布与 CoDa 分布不同的一个例子是“企鹅”,它在 CoDa 中最可能的颜色是黑色,其次是白色和灰色;然而,它在维基百科中的顶部颜色是蓝色,因为“蓝企鹅”是一个在维基百科中有条目的特定物种,即使它不像黑白企鹅那么常见。 VG 分布与 CoDa 不同的一个例子是“鼠标”,因为在 VG 中,大多数出现的“鼠标”是电脑鼠标,它们通常是黑色的,而当被问到“鼠标”这个词时,人类注释者通常会想到动物,因此 CoDa 中最可能的颜色是白色和灰色。
3.6 数据集分割
每个颜色、形状、材质、大小和共现数据集都分为 80% 的训练数据和 20% 的测试数据。所有评估指标都在测试集上报告。训练集用于逻辑回归和软提示调整算法(第 4.2 节)。
4 探索视觉常识
4.1 模型
我们检查了 7 个基于 Transformer 的预训练模型及其 2 个变体,并在各种数据上进行了训练。 BERT(Devlin 等人,2019)、ALBERT(Lan 等人,2020)和 RoBERTa(Liu 等人,2019)仅使用掩码语言建模目标(MLM)对文本进行训练。 Oscar(Li 等人,2020)是一种基于 BERT 架构的视觉语言模型,通过组合 MLM 和文本图像对的对比损失进行训练。 VisualBERT(Li et al., 2019)是另一种基于 BERT 的视觉语言模型,可以学习图像和文本的联合表示。 Tan 和 Bansal (2020) 引入了“vokenization”方法,该方法将语言标记与其相关图像对齐,从而减轻在纯文本任务中基于视觉数据集训练的模型的缺点。由于我们的任务纯粹基于文本,因此我们还尝试了预训练的语音化模型(Wiki 上的 BERT + VLM)。最后,我们使用 CLIP (ViT-B/32) (Radford et al., 2021) 的表示,它是通过对比图像标题匹配损失进行训练的。
由于我们的实验仅涉及文本输入,因此我们开发了 Oscar 的知识蒸馏版本(“蒸馏”),它可以纠正我们任务中图像输入的缺乏。知识蒸馏(Hinton et al., 2015;Sanh et al., 2019)是将知识从一个模型转移到另一个模型的过程,其中学生模型经过训练以产生教师模型的输出。在这里,我们使用 Oscar 作为老师,BERT 作为学生。训练数据是 Oscar 预训练语料库的一部分:COCO (Lin et al., 2014)、Flickr30k (Young et al., 2014) 和 GQA (Hudson and Manning, 2019),而 Distilled Oscar 模型可以访问仅文本数据。我们使用 Kullback-Leibler 损失来衡量 BERT 和 Oscar 的输出 logits 之间的差异,并针对该损失优化预训练的 BERT 以匹配 Oscar 的输出。可配置参数的设置与 Oscar 预训练相同。
CaptionBERT 由于 VL 模型主要是在标题数据上进行训练的,因此纯文本模型和 VL 模型之间的差异可能不是来自模式的差异(文本与图像和文本),而是来自域 webtext 与 VL 模型的差异.图像标题。为了区分域差异与视觉输入的影响,我们在 Oscar 基于字幕的文本数据(与 Distilled 模型的数据相同)上从头开始训练 BERT 模型(“CaptionBERT”)。如果不接触视觉输入的 CaptionBERT 比 BERT 表现更好,并且与 VL 模型(使用视觉输入进行训练)类似,则表明训练领域比模态更重要。另一方面,如果 CaptionBERT 的表现比 VL 模型差,那就会凸显模态的重要性。
4.2 评价方法
我们比较了预训练的单模态和多模态模型的视觉常识能力。给定提示列表和主题词,每个模型都会输出目标词的分布。继 Paik 等人之后。 (2021),我们将零样本探测应用于在语言建模目标上训练的模型,并对那些没有训练的模型进行表示探测。我们报告了输出分布与真实分布的预测精度和 Spearman 相关性。
我们使用通过 MLM 目标(BERT、Distilled 等)训练的模型直接对屏蔽标记进行零样本预测。5 对于 Oscar,我们在其顶部添加了一个单词预测头。跨模板的结果以两种模式聚合。在“最佳模板”模式下,对于每个示例,报告所有模板中最高的 Spearman 相关性,如果真实目标对象与任何模板的 top-1 结果相同,则认为 top-1 结果是正确的。模板。在“平均模板”模式下,输出分布是所有模板的分布的平均值。
由于 CLIP 没有接受标记预测目标的训练,因此我们在冻结的编码器输出之上实现逻辑回归,以预测目标属性或对象。输入是主题 [X] 的每个模板,其中填充了数据集中的输入。就像Paik等人一样。 (2021),为了给模型足够的成功机会,我们采用产生最佳测试准确度分数的模板,报告与该模板相关的准确度和 Spearman 相关性。对于分类头,我们使用 Logistic 回归的 Scikit-Learn 实现(random_state=0、C=0.316、max_iter=2000)(Pedregosa 等人,2011)。
软提示调优为了克服自行设计提示的局限性,我们采用了来自Qin和Eisner (2021)的通过梯度下降学习软提示的提示调优技术。6该算法最小化了对数损失:
4.3 尺寸评估
大小数据集与其他数据集的不同之处在于我们使用相对大小(X 大于/小于 Y),因为绝对大小信息很难获得。因此,我们使用两种尺寸评估策略。
首先,与前面的预测任务一样,给定一个诸如“[X]大于[Y]”的模板和一个对象[X],我们要求模型预测[Y]的分布,仅采用大小数据集中名词的分布 D。对于当前对象 [X],我们采用尺寸类别中小于 [X] 类别的名词 (Nsm),以及尺寸类别中较大类别 (Nlg) 的名词。
设Nsm的长度为m,Nlg的长度为n。然后,对于“较大”模板,我们计算 D 和 Nlg 中顶部 n 个对象之间以及 D 和 Nsm 中底部 m 个对象之间的平均重叠百分比。对于“较小”的模板,“顶部”和“底部”是相反的。
形容词投影第二种方法遵循 van Paridon 等人的方法。 (2021),它将要评估的单词投射到形容词量表上。在这种情况下,我们从模型中计算形容词“小”和“大”以及名词的词嵌入,因此尺度为−−→大−−−→小,并且通过余弦相似度计算投影。例如,对于示例名词“bear”,投影得分由下式给出:
有了良好的词嵌入,较大的名词预计会有更高的投影分数。 Kim 和 de Marneffe (2013) 证明了来自单词表征的形容词量表的有效性。
4.4 测量模型报告偏差
我们通过比较具有不同报告偏差水平的数据集以及 ViComTe 数据集的单组、多组、任意组的模型性能来衡量模型的报告偏差。
我们假设 CoDa 不包含报告偏差,在这种情况下,我们可以将表 2 解释为 ViComTe 包含的报告偏差相对较少,而 Wikipedia 包含的报告偏差相对较多。因此,模型输出与 ViComTe 的相关性越大,与 Wikipedia 的相关性越小,表明模型报告偏差越小。
此外,由于单组主题是属性分布集中于单个属性的主题,因此这些主题属性对不太可能在文本语料库甚至图像注释中报告。因此,SINGLE 组的模型相关性低于 MULTI 和 ANY 组的模型相关性将是模型报告偏差的标志。
5 结果
实验结果表明,多模态模型优于纯文本模型,表明它们在捕捉视觉常识方面具有优势。然而,所有模型都会受到报告偏差的影响,因为它们与维基百科的分布的相关性比 CoDa 和 ViComTe 的分布更好。及时调整和知识提炼可以显着提高模型性能,但增加模型大小却不会。
5.1 Results with MLM Objective
----
5.1 传销目标的结果
颜色、形状、材质 “平均模板”模式的模型性能结果如表 3 所示。仅在此模式下进行快速调整。请注意,由于 top-1 准确度是在每个关系的所有可能类别中获取的,因此应将其与类别数量一起解释(表 1)。
从表3我们可以看到,Oscar在几乎所有情况下都比BERT做得更好。在大多数情况下,Oscar (base) 和 BERT (base) 之间存在显着差异。此外,经过软提示调整后,Spearman 相关性和准确性都得到了显着提高。尽管 Spearman 相关性存在相当大的变化,但我们发现通过提示调整和多模态预训练,每个示例都有一致的改进(附录 A.2)。
表 3 还表明,知识蒸馏有助于提高 BERT 在所有情况下的性能,并且蒸馏后的模型有时甚至可以超越教师模型 Oscar。此外,每个模型的大版本并不总是优于其基本版本,这表明增加模型的大小并不能增强模型理解视觉常识的能力。相反,使用基于视觉的数据进行训练可以。
图 2 说明了在“最佳模板”模式下不同模型与 CoDa、ViComTe 和 Wikipedia 的颜色分布的 Spearman 相关性。 7 所有模型与所有三个数据集都有中等程度的相关性,与 Wikipedia 的相关性最高,表明基于文本所有模型类型的报告偏差。 BERT 在维基百科和 CoDa 之间具有最大的相关性差距,而视觉基础模型的差距较小,表明 VL 模型的报告偏差较小。
图 2:在“最佳模板”情况下,CoDa、VG 和 Wikipedia 上的基本模型的颜色 Spearman 相关性 (×100)。虽然所有模型与维基百科的相关性最好,但 BERT 是最有偏见的。
视觉共现表3还包含提示调整前后视觉共现的结果。仅报告 Spearman 相关性,因为由于任何名词可能存在大量可能的共现对象,因此 top-1 准确度毫无意义。
在及时调整之前,BERT 具有较小的 Spearman 相关性,这表明它可能包含很少的关于视觉共现关系的知识。奥斯卡在零样本设置下展示了更多这样的知识。经过及时调整后,所有模型性能均得到改善。
5.2 分类头结果
表 4 显示了 BERT、CLIP 和 Oscar 在配备分类头时的结果。我们观察到 Oscar 和 CLIP 取得了相似的性能,并且都优于 BERT。请注意,虽然 Visual Genome 是 Oscar 预训练语料库的一部分,人们可能会怀疑这给它带来了优势,但 CLIP 是在来自网络搜索的与 Visual Genome 无关的大型语料库上进行训练的。因此,我们可以得出结论,在图像和文本上预训练的多模态模型优于仅文本模型。
表 5 将表 4 中的结果分为三个主题组。 Oscar 和 CLIP 几乎在所有情况下都优于 BERT。 SINGLE 组的 top-1 准确度高于 MULTI 和 ANY 组,这可能是因为 SINGLE 组受试者只有一个最可能的目标属性,这可能更容易预测。请注意,所有三个模型的 Spearman 相关性从 SINGLE 组到 MULTI 组再到 ANY 组都变得更高。白等人。 (2021) 认为 ANY 和 MULTI 组的较高相关性是模型报告偏差的标志,因为这两个组中的对象更常被报告。因此,这里的结果表明多模式模型中仍然存在报告偏差。
5.3 结果:尺寸关系
表 6 显示了提示调整之前和之后的等级划分方法(第 4.3 节)的结果。令人惊讶的是,在这种情况下及时调整并没有帮助。此外,“较大”模板的性能高于“较小”模板的性能,表明模型包含对“较大”模板的固有偏好。
图 3 显示了形容词投影方法的结果。8 对于 BERT 和 Oscar,我们使用投影到形容词“大”和“小”的名词子词标记的平均嵌入。对于 CLIP,我们将文本编码器输出作为嵌入,从而得到与 BERT 和 Oscar 不同的分数范围。结果显示出以下趋势:较大的物体被投射到光谱的“大”端,尽管这种趋势有时会朝着“巨大”端被打破。这可能是由于“巨大”组包括“游泳池”和“房子”等名词,可以通过相对大小指示符“小”来修饰。
5.4 分析与局限性
在表 3 中,BERT 对形状的准确度特别低(只有 6.7%),尽管该形状只有 12 个类别。我们假设这是由于 BERT 训练的文本语料库中报告的形状偏差造成的。这一假设得到了维基百科中包含(名词、属性)对的挖掘句子的支持,我们发现关系形状的出现次数少于材料和颜色(附录 A.3)。我们还研究了基于视觉的模型相对于纯语言模型的优势是否来自网络语料库和图像标题之间的领域差异,或者是否存在实际视觉输入。尽管它的老师接受了视觉输入的训练,但 Distilled 模型仅接受了字幕数据的训练,并且其性能与 Oscar 相匹配,因此我们假设扎根的训练数据增强了模型捕捉视觉常识的能力。 CaptionBERT 结果支持了支持域差异的假设,因为它在 CoDa 和 VG 中都比 BERT 表现更好(图 2)。尽管如此,视觉输入也有影响,因为 Oscar 在 CoDa 上的相关性高于 CaptionBERT。因此,领域和模态似乎都会影响最终的模型性能。最后,尽管多模态模型显示出任务的改进,但有时改进并不显着,并且由此产生的相关性仍然很弱。需要进一步的工作来增强模型的视觉常识能力并减少报告偏差,我们的数据集可以作为一种评估方法。
六,结论
在本文中,我们探讨了来自预训练神经网络的视觉显着属性的知识。我们自动提取五种视觉关系的数据集:颜色、形状、材质、大小和共现,并表明我们的 ViComTe 数据集与人类对颜色的感知数据的相关性比从维基百科挖掘的数据要高得多。然后,我们应用几种探测技术,发现视觉监督模型比纯语言模型表现更好,这表明它们可以更好地捕获此类视觉属性。将视觉监督模型中的知识提炼成纯语言模型,其性能可与教师模型相媲美。我们还观察到,与维基百科文本相比,基于视觉的文本(VG 挖掘数据集)的报告偏差较小,与纯语言模型相比,基于视觉的模型(Oscar、DistilledOscar、VisualBERT 和 CLIP)的报告偏差也较小。然而,视觉基础模型仍然受到报告偏差的影响,如每组分析所示,两种类型的模型在 MULTI 组中的表现都优于 SINGLE 组。