AAAI 2023 | 基于视觉感知的常识知识获取-CSDN博客

提出一种基于视觉的远程监督多样本学习方法CLEVER，用于自动获取实体间的常识性知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©作者 | 社媒派SMP

来源 | 社媒派SMP

论文标题：

Visually Grounded Commonsense Knowledge Acquisition

论文链接：

https://arxiv.org/abs/2211.12054

作者单位：

清华大学，新加坡国立大学，汉堡大学，腾讯

研究动机

大规模的常识性知识库促进了许多人工智能应用，如计算机视觉、自然语言处理。常识知识的自动获取（CKE）因此成为了一个重要而具有挑战性的问题。基于文本进行常识知识的自动获取通常受限于文本中常识的稀疏性和报告偏差。相比而言，视觉感知提供了关于现实世界实体的丰富的常识知识，例如（人-可以抓握-瓶子）。

在本工作中，我们提出将基于视觉感知的常识获取定义为一个远程监督的多样本学习任务（图 1），模型可以在不依赖任何图像中实体关系标注的情况下，从包含特定实体对（比如 人-瓶子）的大量图片中总结出实体之间的常识关系（比如 可以抓握）。

先导实验

我们首先构建了一个常识获取基准数据集，并在此上进行了大量的先导实验来研究已有方法的效果。分析实验结果（图2），我们发现基于文本的方法和对预训练语言模型的查询表现很差（RTP, LAMA），这是因为文本中常识知识的稀疏性，通过对预训练语言模型进行微调，我们发现模型取得了较好的效果（Prompt-FT, Vanilla-FT）；另外，视觉感知能够提供丰富的信息，直接基于平均归纳进行多样本学习就可以取得所测方法中最高的性能（AVG）。

实验结果也验证了多样本学习对于可以规模化的自动常识知识获取是必要的，因为图片关系抽取模型（VRD）尽管利用了更多的图像标注却难以取得可比的性能；目前的多样本学习算法并不能解决 CKE 问题，这些算法整体的性能表现还不够好（ONE, ATT, AVG）。

值得注意的是，尽管在基于文本的世界知识中 ONE 和 ATT 取得了不错的效果，它们在 CKE 上的表现却非常差。我们认为这是由于常识知识相比于世界知识要更为复杂，许多细粒度的关系之间存在语义重叠（站在上方 和 行走在上方）和上下位词冲突（在上方，站在上方）的问题。

解决方案

我们设计了 CLEVER 框架（图3）来利用视觉语言预训练模型深度理解每一张输入图片，然后使用对比性注意力机制从这些图片中选择对于常识抽取而言有效信息丰富的实例，进而归纳出实体对之间的常识关系。

具体来说，为了对每张输入图片中的实体交互进行深度理解，我们将图片中所有物体的图像特征和对应类别名称输入给预训练视觉语言模型进行编码。在此基础上，我们将物体的图像特征输出和类别特征输出结合起来作为物体特征，之后将待抽取实体关系的两个类别的物体特征结合起来就得到了图片级别的深度理解。

最后，通过应用我们设计的对比性注意力机制将所有候选的实体关系作为查询特征，我们为每一个关系类别构建了一个基于关系的图像集合注意力分布来归纳所有输入图像的特征。相比于传统的注意力机制，对比性注意力机制显式建模了正确实体关系和错误实体关系之间的对比损失，从而减轻了常识知识复杂性导致的语义重叠和上下位词冲突带来的影响。