对视觉问答(VQA)跨模态任务中损失模型精度问题改进

来源:投稿 作者:摩卡

编辑:学姐

论文解读

《Selective residual learning for Visual Question Answering》

本文的Motivation为

大量Self-attention based models, 在intra-relation建模时对所有的object或word进行相互关系的计算,但其实在一张图片中,只有几个object是对问题贡献较大的,之前的建模方式会使得模型忽略掉这些important object进而损失模型精度。

Method

本文针对这一问题提出了三个策略(创新):Selective residual module(SelRes), Selective mask model(SelMask), Bounding box aggregation module。其中SelRes的思想是:为了选择important object,先使用Self-attention的方法计算出每一个结果,然后设置threshold(通过设置一个选择率r和Q,K产生的相似度矩阵相乘产生)对小于threshold的特征进行过滤将其全部设置为0。选择率r的产生方法有两种,一种是通过启发式搜索产生,另一种是自适应产生。

在这里插入图片描述

图1:SelRes

SelMask的思想是

在应用SelRes model之后,未被选择到的特征将会被设置为0,但是由于Self-attention模块是堆叠的,在这一层的被选中特征,在下一层可能就变为未被选中特征了,会产生不稳定现象(因为self-attention中的linear会使得0特征变为非0特征,然后又通过加权平均计算策略使得可能上次被选中的特征变为未被选中的特征)。为了解决这一问题,本文直接将上一层被设置为0的Self-attention特征,在下一层的attention matrix设置为0,这样该位置对应的特征就不能再使用了。

图片

图2:SelMask

图片

图3:self-attention没有使用mask和使用mask对比

Bounding box aggregation module思想

将位置坐标和宽高坐标通过concat融入图像特征,产生更全面的图像特征。

图片

图4:Bounding box aggregation module

图片

图5:基于MCAN改进的模型图

图片

图6:基于LXMERT改进的模型图

实验结果

图片

图片

本文选取了两个基线模型,一个是from-scratch模型MCAN,另外一个是pre-training模型LXMERT。将上述的三个模块应用到MCAN,实验结果提升了0.4(test-dev 70.6到71.0, test-std 70.9到71.3),应用在LXMERT上,实验结果提升了0.3(test-dev 72.4到72.7,test-std 72.5-72.8)。该结果验证了提出模块的有效性。

参考文献:

[1] Z. Yu, J. Yu, Y. Cui, D. Tao, Q. Tian, Deep modular co-attention networks for

visual question answering, in: CVPR 2019

[2] H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, in: K. Inui, J. Jiang, V. Ng, X. Wan (Eds.), Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing, EMNLPIJCNLP 2019, Hong Kong, China, November 3–7, 2019, Association for Computational Linguistics, 2019, pp. 5099–5110, doi:10.18653/v1/D19-1514.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值