2021:Greedy Gradient Ensemble for Robust Visual Question Answering

摘要

        语言偏见是视觉问答中的一个关键性问题,即经常利用数据集偏见而不是图像信息来做最后的决定,导致模型在域外分布数据的糟糕表现和不充分的视觉解释性。本文提出一种新的去偏框架--Greedy Gradient Ensemble(GGE),结合多个偏见模型以进行去偏见的模型学习。由于贪婪策略,GGE迫使有偏见的模型优先过度拟合有偏见的数据分布,使得基本模型关注于有偏见模型难以解决的例子。实验表明我们的方法更好的利用了视觉信息,并在未使用额外注释的数据集VQA-CP上实现了最先进的表现。

一、介绍

        语言偏见,即模型经常利用问题和答案的表面相关性来训练模型,而不考虑视觉信息。这个问题流行的解决方法可以被分为:基于集成、基于接地、基于反事实。基于集成的方法与传统的长尾分类中的重新加权和重新采样类似,它通过只有问题的分支对样本重新加权;基于接地的模型根据人类注释的视觉解释强调对图像信息的更好利用;最新提出的基于反事实的方法进一步结合了这两种工作并实现了更好的表现。而且,现有的方法也并不能充分利用视觉和语言信息,如基于接地的方法精度的提高并不是来自适当的视觉基础,而是来自一些未知的正则化效应。

        通过实验分析,语言偏见实际上为两种:a)训练和测试间的统计分布差距,b)特定QA对的语义相关性,如图1所示。

         我们提出了Greedy Gradient Ensemble(GGE),一种模型不可知的去偏框架,继承了偏见模型和在函数空间的梯度下降的基本模型。我们方法的关键思想是利用深度学习中的过度拟合现象。数据的偏见部分被偏见的特征贪婪地过拟合,因此可以用更理想的数据分布学习期望的基本模型,并关注在偏见模型难以解决的例子上。

二、相关工作

三、VQA中的语言先验

        从实验中可以得出以下结论:1)好的正确率并不能保证系统在答案分类器上很好的应用了视觉信息,接地监督或只有问题正则化可能鼓励模型利用相反的语言偏见,而不是根号的视觉信息。2)分布偏见和相关性偏见是VQA中语言偏见的互补方面,一个单一集成分支并不能建模这两种偏见。

四、方法

4.1 Greedy Gradient Ensemble

        (X,Y)表示训练集,X表示观察空间,Y表示标签空间,根据之前的VQA方法,主要考虑二值交叉熵损失的分类问题:

 基线模型直接最小化预测f(X;sita)和标签Y之间的损失:

 导致模型很容易过拟合数据集的偏见,从而有不好的泛化能力。

        假设B为一组可以基于先验知识提取的偏见特征,我们拟合偏见模型和基本模型到标签Y:

  hi

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值