【鲁棒VQA】Digging out Discrimination Information from Generated Samples for Robust VQA

原文标题: Digging out Discrimination Information from Generated Samples for Robust Visual Question Answering
原文代码: https://github.com/Zhiquan-Wen/DDG
发布年度: 2023
发布期刊: ACL


摘要

Visual Question Answering (VQA) aims to answer a textual question based on a given image. Nevertheless, recent studies have shown that VQA models tend to capture the biases to answer the question, instead of using the reasoning ability, resulting in poor generalisation ability. To alleviate the issue, some existing methods consider the natural distribution of the data, and construct samples to balance the dataset, achieving remarkable performance. However, these methods may encounter some limitations: 1) rely on additional annotations, 2) the generated samples may be inaccurate, e.g., assigned wrong answers, and 3) ignore the power of positive samples. In this paper, we propose a method to Dig out Discrimination information from Generated samples (DDG) to address the above limitations. Specifically, we first construct positive and negative samples in vision and language modalities, without using additional annotations. Then, we introduce a knowledge distillation mechanism to promote the learning of the original samples by the positive samples. Moreover, we impel the VQA models to focus on vision and language modalities using the negative samples. Experimental results on the VQA-CP v2 and VQA v2 datasets show the effectiveness of our DDG.


背景

一些VQA模型倾向于过度依赖问题和答案之间的表面相关性(即偏差bias),而不是采用推理能力来回答问题。为了缓解偏见问题,现有的方法大致可分为三种类型:1)增强视觉注意力;2) 直接削弱偏见;3)平衡数据集。先前的研究表明,平衡数据集的方法通常优于其他类型的方法,因为它们挖掘出数据的自然分布,然后设计出合适的策略来克服偏差。

现有方法:
1.CSS和Mutant方法分别通过屏蔽图像和问题中的关键对象或单词来生成反事实样本。但是,需要额外注释。
2.为了摆脱对附加注释的依赖,MMBS通过随机打乱疑问词或删除疑问类型的词来构建肯定问题,但破坏原始问题的语法和语义。
3.SimpleAug和 KDDAug通过重新组合现有问题和图像来构建新样本,但很难为其分配正确答案。
4.SSL-VQA和D-VQA通过在小批量数据中随机抽样图像或问题来构建负样本,但忽略了生成的正样本。

创新点

为了解决数据集、视觉和语言的偏见,本文提出了一种从生成样本中挖掘出判别信息的方法(DDG),在视觉和语言模态中构建了正负样本,并设计了相应的训练目标。
1)本文设计了一种新颖的正图像样本生成策略,该策略使用预训练的UpDn模型的图像注意力权重来指导目标对象的选择。并使用翻译和反向翻译机制来构建问题正样本。
2)引入知识蒸馏机理,促进正样本对原始样本的学习。
3)采用正负样本来鼓励VQA模型关注视觉和语言模式,以减轻偏差。

模型

基础vqa模型

大多数VQA模型通常包含四个部分,即视觉特征编码器ev(·)、语言特征编码器eq(·)、多模态特征融合模块f(·,·) ,和分类器 c(·)。这些模块可以构成传统的 VQA 模型:
vqa模型
形式上,由于将 VQA 任务视为多类分类问题,因此可以通过二元交叉熵损失 Lvqa 来优化 VQA 模型,其可以表示为:
在这里插入图片描述

样本生成

1.正样本生成

  • 生成图像正样本

基于理论:基线模型可以识别问题所涉及的图像中的目标对象,以在训练过程中完成回答。因此,预训练的 UpDn 模型的图像注意力权重可以帮助找到目标对象作为图像的正样本,从而可以排除图像的背景信息。

给定来自 VQA-CP v2 训练集的样本 ( v i , q i v_i,q_i vi,qi),首先将其输入到在 VQA-CP v2 训练集上预训练的 UpDn 模型,并获得 UpDn 模型关于图像中对象的图像注意力权重。随后,根据前 k 个图像注意力权重选择 k 个对象作为正图像样本 ( v i + , q i v^+_i ,q_i vi+,qi)。

  • 生成问题正样本

以前的方法采用数据增强方法来扩展数据,然而这些方法会严重破坏原问题的语法和语义。

本文采用翻译和反向翻译机制来生成正问题样本。具体来说,首先使用预先训练的英语-法语和英语-德语翻译模型将原始问题分别翻译为法语和德语。然后使用相应的预训练反向翻译模型将它们翻译回英语。 进一步采用预训练的句子相似度模型来选择与原始问题相似度最高的回译问题样本作为正问题样本。然而对于一些简单的问题,在这个过程中句子保持不变,则根据预先训练的同义词替换模型,用同义词替换问题中的单词。 于是得到了正问题样本( v i , q i + v_i, q^+_i vi,qi+ )。

2.负样本生成

通过在每个样本的小批量数据中随机采样一个问题和一张图像来构建语言和视觉模态的负样本。对于每个样本 ( v i , q i v_i,q_i vi,qi),从 min-batch数据 ( v b , q b ) b = 1 B {(v_b,q_b)}^B_{b=1} (vb,

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值