因果理论在视觉常识特征学习中的应用

该文章探讨了在视觉任务中,如何利用因果理论克服观察偏差。通过引入“因果干预”P(Y∣do(X)),以改善仅依赖共现概率P(Y∣X)造成的错误关联。提出VCR-CNN架构,包括自预测器和上下文预测器,旨在增强模型的鲁棒性和减少观测偏见。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

文章提到,事实上,人类通过探索物理世界,自然而然地在无人监督的情况下学习常识,我们希望机器也能这样模仿。一个成功的例子便是NLP中词向量的学习,例如,一个词的表示 X X X能够通过预测它的上下文词语 Y Y Y, P ( Y ∣ X ) P(Y|X) P(YX)来学习到。
然而,在视觉任务中,这一情形却有不同。原因是一旦一张图像形成,图像之中的各种物体为何构成这个上下文情景是不得而知的,这将导致“观察偏差”,举例,如果键盘(keyboard)和鼠标(mouse)被观察到与桌子(table)出现的频率比其他物体要高,那么网络在学习过程中可能会错误地认为keyboard和mouse是table的属性而非属于computer。
因此,判断两个物体的联系,不能仅仅通过共现概率 P ( Y ∣ X ) P(Y|X) P(YX)来简单处理。

idea

在这里插入图片描述

判断物体X、Y的关联关系,需要人为施加一定的“因果干预”,即 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Ydo(X))。怎么执行这个 d o do do操作是论文的一个重点。简单来说,就是借助一些场景之外的物体加入的情况下,计算X、Y之间的联系。其中,所有能够加入到场景之中的物体 z z z构成了混淆因子字典 Z Z Z。以COCO数据集为例,共有80个labels,每个类别标签被表示成d维向量,故字典大小为 Z = [ z 1 , z 2 , . . .

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值