『论文笔记』Deconfounded Image Captioning

Deconfounded Image Captioning


一句话总结


作者认为图像描述等视觉语言类任务中偏置的罪魁祸首是预训练数据集,因此利用前后门调整方式去混杂。

导论


Motivation:

最近的视觉语言社区越来越关注数据集偏置问题,陷入了”做一个数据集“;”有偏置“;”做一个新的“循环之中,尽管也有一些工作开始着眼于设计不受偏置影响的模型,但是却始终没有人探究偏置背后的原因究竟是什么。
作者以图像描述任务为案例,试图探究这一原因,并得出”真正的恶魔存在于预训练数据集中“这一结论。

Contribution:

一旦预训练过后,我们会保留网络但是舍弃数据集,这便是引入混杂因子的根源行为。
作者认为预训练数据集D是图像I与描述L的混杂因子,导致二者的表面相关性。

数据集中存在的偏置
下图便以这一新视角回顾了几个典型的偏置现象。

表面相关性例子
去除混杂的做法便是使用do操作得到新的训练目标: P ( L ∣ d o ( I ) ) P(L| do(I)) P(Ldo(I))
do操作将后验概率从被动观察提升到了主动干预层级,包含两步:

  1. 切断预训练数据集D与图像I的链接
  2. 计算D中任何视觉概念d的似然 P ( L ∣ I , d ) P(L|I,d) P(LI,d)
    与向视觉对话中引入两个原则的论文同理,使用do算子和后门调整消除混杂因子的影响,以建模真正的因果效应。
    同样地,由于预训练数据集D在预训练结束之后,不再被观测,所以需要提供另一个解决方案来预防对D的显性干预。

作者使用前门调整方法,找到一个中介变量Z更好地表示图像I到描述L的转化过程。

前门调整

Deconfounded Image Captioning


作者回溯了近五年来因果视角的图像描述模型,提出了DICv1.0,并以主流的Encoder-Decoder框架将其实现。

关于Z的选择问题:

三个候补分别是:spatial position; sentence pattern; structured attention;
经过分析选择了structured attention,从ConceptNet中采样一个语义结构集作为中介变量Z。

然而作者发现这一过程也会引入新的混杂因子——语言资源S。不过好在S是可观测的。

最后作者得到了DICv1.0,因果图如下所示,其中含有两个混杂因子D和S。

DICv1.0因果图
在此因果图基础上,利用后门调整和前门调整可以计算相应的干预分布:

P ( L ∣ d o ( I ) ) = ∑ s P ( s ) ∑ x P ( x ) ∑ z P ( z ∣ I ) [ P ( L ∣ s , x , z ) ] = E s E x E [ z ∣ I ] [ P ( L ∣ s , x , z ) ] P(L|do(I)) = \sum_sP(s)\sum_xP(x)\sum_zP(z|I)[P(L|s,x,z)]\\=E_sE_xE_{[z|I]}[P(L|s,x,z)] P(Ldo(I))=sP(s)xP(x)zP(zI)[P(Ls,x,z)]=EsExE[zI][P(Ls,x,z)]

为了在Encoder-Decoder框架中实现,使用网络估计 p ( L ∣ s , x , z ) p(L|s,x,z) p(Ls,x,z)

P ( L ∣ s , x , z ) = S o f t m a x [ g ( s , x , z ) ] P(L|s,x,z)=Softmax[g(s,x,z)] P(Ls,x,z)=Softmax[g(s,x,z)]

随之而来的挑战是,我们需要从这个网络采样大量的输出。为了解决这个挑战,作者提出了一个两步近似法,使得对于一次 P ( L ∣ d o ( I ) ) P(L|do(I)) P(Ldo(I))的估计只需要前向传播一次网络。
第一步为NWGM,Normalized Weighted Geometric Mean近似,将期望融入网络。
第二步为为了估计期望,从S、X、Z取样有限值。

实现细节请参照原文。

实验


消融实验,UD代表Up-Down模型,-BD代表后门调整、-FD代表以主动干预实现前门调整,-FD/Cor代表以被动关联实现前门调整,-DICv1.0代表本文提出的模型。
主要说明几个事实:

  1. 与UD相比,UD-DICv1.0将CIDEr-D从125.3提升到了128.2,意味着UD-DICv1.0生成了与真实答案最相似的描述。CHs/CHi从13.7/8.9变为10.2/6.7,证实UD-DICv1.0生成最少的偏置。
  2. 与UD-BD相比,UD-FD表现更好,意味着后门调整近似并不如前门调整有效率。
  3. 与UD-FD相比,UD-DICv1.0表现更好,意味着仅仅添加额外资源并不足以生成最好的描述,我们还需要找到隐藏的混杂因子并进行去混杂。

消融实验
CHAIRs和CHAIRi是用来衡量偏置程度的指标,除此之外本文还针对性别偏置、动作偏置以及属性偏置进行了具体分析,比如当某个视觉概念(滑板skateboard)出现时,计算性别单词(women)在真实答案和生成答案之间是否具有一致性。

三个定性示例
UD-DICv1.0在三项实验中达到了最高的准确率,意味着UD-DICv1.0在不平衡的训练中生成了最少的偏置。

最后和SOTA模型进行了比较,表明DIC框架比大规模预训练更加节省资源且高效。

与SOTA比较


在MS-COCO测试集上的结果

个人总结:
大体思想和“向视觉对话中引入两条原则”那一篇相似,都是 发现了一个之前不知道的混杂因子,并通过do算子后门调整 去混杂,但是由于混杂因子无法被观测,需要采取特殊的实 现手段。但这篇似乎更加复杂,涉及的内容更多。


部分内容由于背景知识不够充足,所以暂时被搁置。
这篇涉及到了前门调整和中介变量Z,这一部分还没有太看懂。
前门调整是什么?为什么要引入中介变量Z?
作者对图像描述领域五年内的模型都进行了因果视角的审视,这一部分如果有需要也可以看一看。


参考


原文请点这里

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值