A negative case analysis of visual grounding methods for VQA,CVPR 2020

Github: https://github.com/erobic/negative_analysis_of_grounding

摘要:已存在的VQA模型利用数据歧视(bias)和错误的统计相关性来回答问题,而非利用争取的原因。最近的方法引入视觉线索(人的注意力图)来建立更好的VQA模型。本文发现该方法起效果的原因是其起到正则化的作用,避免语言先验产生过拟合。即使随机引入视觉线索也能起到类似的效果。因此,本文提出了一种简单的正则化方案,其在VQA-CPv2上也取得较好结果。

引言

多数已有模型由于利用的是训练集的先验信息而非正确的推理过程,因此在训练集和测试集的语言非独立同分布的VQA-CP数据集上表现不佳。最近一些模型则尝试引入视觉线索来替换语言先验信息,这些方式依赖额外注释的方法在VQA-CPv2上取得了提升。

本文发现以上方法取得效果的原因是对模型进行了正则化,使得其忘记语言先验。即使是引入无关的、随机的视觉区域也能取到类似的效果,其次证明相关、无关和随机区域对模型的预测变化并没有显著的统计意义,最后证明通过损害训练集精度来保持先验完整时,这些方法精度都会下降(即还是利用了先验?)。

因此,本文假设控制训练集上的模型退化能够使模型忘记训练先验从而提升测试精度。因而,本文提出一种正则化方法,总是对模型进行惩罚无论其预测是否正确。值得一提的是,本文是认可视觉线索的方法的,但是对视觉线索是否真正被利用到存疑。

 

 

已有方法:

  1. baseline: UpDn, CVPR 2018
  2. HINT:使用排序损失,如果视觉区域和真实区域对的敏感性排序与人类注意力图不符,则对模型进行惩罚。
  3. SCR:(1)非影响区域的敏感性高于影响区域(2)正确答案的最高影响区域对非正确答案的敏感性更高,则对模型进行惩罚。

 

理论分析:

  1. 引入无关的视觉线索:无关线索即1-Sh,不敏感区域
  2. 引入随机的视觉线索:敏感性取(0,1)的均匀分布
  3. 使用t统计检验,说明以上两种设置的模型与原模型并无显著差异;并且统计变体模型和原模型,在测试样例上的问答结果,都有90%左右的样例结果相同,即大概没区别。
  4. 使用视觉线索后,训练集精度都下降,但有较高比例使用的是非争取视觉区域;因此,本文假设不提高训练集精度,不依赖于视觉线索的正则化方法也能提高模型的精度,从而提出该损失:

    

这个损失一直惩罚模型,使其无法记住先验信息。

 

实验结果:

 

总结:

这似乎也是一种因果推理的方法,从反事实的结果去强制模型学习到正确的因。类似的,也许可考虑从反事实的特征去入手。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值