2021:Answer Questions with Right Image Regions: A Visual Attention Regularization Approach

本文提出了一种名为AttReg的视觉注意力正则化方法,以解决视觉注意力机制在视觉问答任务中关注错误图像区域的问题。AttReg通过识别并正则化被忽视的关键图像区域,引导模型更准确地回答问题,无需人类注意力监督。实验表明,AttReg在多个数据集上提高了基于视觉注意力的VQA模型的性能,同时证明了视觉注意力比基于梯度的方法更可靠。
摘要由CSDN通过智能技术生成

摘要

        视觉问答中的视觉注意力目标是定位与答案预测的正确图像区域,然而,最近研究表明,视觉注意力强调的图像区域与给定的问题和答案经常不相关,导致模型不能正确的进行视觉推理。为解决此问题,现有方法大多将视觉注意力的权重与人类的注意力对齐,然而,收集人类数据是费力且昂贵的。本文设计一种新的视觉注意力正则化方法--AttReg,以更好地视觉接地。具体地,AttReg首先识别对回答问题至关重要的但被主干模型意外忽视的图像区域(即分配较低的注意力权重),然后利用一个掩码引导的学习方案,来正则化视觉注意力,以更多的关注这些被忽视的关键区域。

        提出的方法非常灵活且模型不可知可以集成到大多数基于视觉注意力的VQA模型中,不需人类注意力监督。在VQA-CP v2、VQA-CP v1和VQA v2三个数据集上进行实验,评估模型的有效性,作为一种副产物,当AttReg纳入到强基线LMH中时,我们的方法实现了最新的59.92%的精度。除有效性验证外,我们还认识到VQA中视觉注意力的忠实性,虽然还没有在文献中有很好的探索,因此,我们建议通过实例来验证视觉注意力的这种特性,并将其与流行的基于梯度的方法进行比较。

一、介绍

        典型的VQA方法将VQA视为分类方法,现有方法中,一个有趣的设计是基于给定的问题将视觉注意力机制应用于图像区域,使VQA模型具有视觉接地和解释的能力。允许模型为不同的图像区域分配不同的权重,这些权重是通过给定的问题和图像特征间的语义相似性来计算,如图1,与人类视觉系统类似,有着高注意力权重的图像区域通常被认为是模型在做决策时观察的位置。因此,通过发现这些相关的图像区域,视觉注意力不仅能减少噪声特征,还能够构建更精细的视觉表示。

        尽管现有的VQA模型从视觉注意力中获益很多,但一个迫切的问题是缺乏视觉接地的引导,这通常会导致视觉注意力机制关注与正确答案不太相关的图像区域,如图1,主干模型的视觉注意力关注在不那么重要的区域dog上,而忽略了最相关的一个frisbee(飞盘),误导模型预测错误的答案brown(棕色)。

        与视觉注意力正交、梯度加权的类激活映射(Grad-CAM)方法利用每个图像区域的梯度值根据模型预测结果来实现视觉接地的任务。例如,[26]中的方法根据真实答案计算每个图像区域的梯度,并鼓励梯度与人类注意力的排序一致性,以获得更好的视觉接地。最近,[28]利用文本注释作为辅助信息,并通过惩罚导致错误答案的重要区域的梯度,来正则化视觉接地。然而,我们的实验表明,与视觉注意力相比,这种基于梯度的方法对于视觉接地是不值得信赖的,问题在于具有较大的基于梯度的权重的图像区域与答案预测并不密切相关,这违背了Grad-CAM在VQA中专门为视觉接地设计的初衷。

        为克服之前方法的限制,本文提出一种新的视觉注意力正则化方法--AttReg,来指导视觉注意力的学习。如图1所示,AttReg旨在通过视觉注意力权值正则化来实现更好的准确性。具体地,对于每个训练样本,AttReg首先识别被忽视的关键区域,即回答问题的关键区域但分配了较低的权重,之后,AttReg构建了另一个由同样问题和一个新规划的图像(被忽视的关键区域被掩码)组成的样本。重要的是,当模型给与策划的样本时,模型被训练为回答None,因为相关的图像区域是掩蔽的。为避免策划的样本正确回答和提高答案预测精度,引导这些被忽略的关键区域对模型预测产生更强的影响,因此模型被正则化,使其具有更高的注意力权重。我们的端到端的方法很容易实现,不需人类的监督,且可以应用到大多基于视觉注意力的现有VQA模型中。实验结果表明我们提出的方法能够引导视觉注意力学习,并提高很多基于视觉注意力的VQA模型的性能。

        目前位置,VQA中视觉注意力的可靠性还没有得到很好的探索,这里的可靠性指注意力权重与对应图像区域对模型预测的贡献之间的一致性。如果具有高注意力权重的区域往往对模型预测的影响很小,则获得弱可靠性。为证明这一特性,我们在一个视觉注意力模型--UpDn上进行遮挡研究,我们注意到,自动学习的注意力权重与对模型决策的图像区域的影响高度相关,这表明视觉注意力的良好的可靠性。

        总之,本文的贡献有三个方面:(1)提出一种新的视觉注意力正则化方法,能够引导模型基于正确图像区域来正确回答问题,提出的正则化方法是模型不可知的,不需人类注意力监督,可以集成到大多基于视觉注意力的VQA模型,例如UpDn和LMH。(2)我们用实验研究了VQA中普遍的视觉注意力的可靠性,结果表明,与Grad-CAM方法相比,视觉注意力对于模型决策更具有可靠性。(3)大量实验表明,该方法可以同时提高视觉接地精度和主干模型的性能,通过将我们的正则化方法引入LMH模型,在VQA-CP v2数据集上实现最先进的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值