背景
文章提到,事实上,人类通过探索物理世界,自然而然地在无人监督的情况下学习常识,我们希望机器也能这样模仿。一个成功的例子便是NLP中词向量的学习,例如,一个词的表示 X X X能够通过预测它的上下文词语 Y Y Y, P ( Y ∣ X ) P(Y|X) P(Y∣X)来学习到。
然而,在视觉任务中,这一情形却有不同。原因是一旦一张图像形成,图像之中的各种物体为何构成这个上下文情景是不得而知的,这将导致“观察偏差”,举例,如果键盘(keyboard)和鼠标(mouse)被观察到与桌子(table)出现的频率比其他物体要高,那么网络在学习过程中可能会错误地认为keyboard和mouse是table的属性而非属于computer。
因此,判断两个物体的联系,不能仅仅通过共现概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)来简单处理。
idea
判断物体X、Y的关联关系,需要人为施加一定的“因果干预”,即 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X))。怎么执行这个 d o do do操作是论文的一个重点。简单来说,就是借助一些场景之外的物体加入的情况下,计算X、Y之间的联系。其中,所有能够加入到场景之中的物体 z z z构成了混淆因子字典 Z Z Z。以COCO数据集为例,共有80个labels,每个类别标签被表示成d维向量,故字典大小为 Z = [ z 1 , z 2 , . . .