因果理论在视觉常识特征学习中的应用

本文链接：https://blog.csdn.net/csdn_tclz/article/details/108186817

该文章探讨了在视觉任务中，如何利用因果理论克服观察偏差。通过引入“因果干预”P(Y∣do(X))，以改善仅依赖共现概率P(Y∣X)造成的错误关联。提出VCR-CNN架构，包括自预测器和上下文预测器，旨在增强模型的鲁棒性和减少观测偏见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

文章提到，事实上，人类通过探索物理世界，自然而然地在无人监督的情况下学习常识，我们希望机器也能这样模仿。一个成功的例子便是NLP中词向量的学习，例如，一个词的表示 $X$ 能够通过预测它的上下文词语 $Y$ , $P (Y ∣ X)$ 来学习到。
然而，在视觉任务中，这一情形却有不同。原因是一旦一张图像形成，图像之中的各种物体为何构成这个上下文情景是不得而知的，这将导致“观察偏差”，举例，如果键盘(keyboard)和鼠标(mouse)被观察到与桌子(table)出现的频率比其他物体要高，那么网络在学习过程中可能会错误地认为keyboard和mouse是table的属性而非属于computer。
因此，判断两个物体的联系，不能仅仅通过共现概率 $P (Y ∣ X)$ 来简单处理。

idea

在这里插入图片描述

判断物体X、Y的关联关系，需要人为施加一定的“因果干预”，即 $P (Y ∣ d o (X))$ 。怎么执行这个 $d o$ 操作是论文的一个重点。简单来说，就是借助一些场景之外的物体加入的情况下，计算X、Y之间的联系。其中，所有能够加入到场景之中的物体 $z$ 构成了混淆因子字典 $Z$ 。以COCO数据集为例，共有80个labels，每个类别标签被表示成d维向量，故字典大小为