对视觉问答(VQA)跨模态任务中损失模型精度问题改进

最新推荐文章于 2024-02-04 19:58:13 发布

深度之眼

最新推荐文章于 2024-02-04 19:58:13 发布

阅读量353

点赞数

分类专栏：深度学习干货文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42645636/article/details/127888157

版权

深度学习干货专栏收录该内容

515 篇文章 189 订阅

订阅专栏

来源：投稿作者：摩卡

编辑：学姐

论文解读

《Selective residual learning for Visual Question Answering》

本文的Motivation为

大量Self-attention based models, 在intra-relation建模时对所有的object或word进行相互关系的计算，但其实在一张图片中，只有几个object是对问题贡献较大的，之前的建模方式会使得模型忽略掉这些important object进而损失模型精度。

Method

本文针对这一问题提出了三个策略(创新)：Selective residual module(SelRes), Selective mask model(SelMask), Bounding box aggregation module。其中SelRes的思想是：为了选择important object，先使用Self-attention的方法计算出每一个结果，然后设置threshold(通过设置一个选择率r和Q，K产生的相似度矩阵相乘产生)对小于threshold的特征进行过滤将其全部设置为0。选择率r的产生方法有两种，一种是通过启发式搜索产生，另一种是自适应产生。

在这里插入图片描述

图1：SelRes

SelMask的思想是

在应用SelRes model之后，未被选择到的特征将会被设置为0，但是由于Self-attention模块是堆叠的，在这一层的被选中特征，在下一层可能就变为未被选中特征了，会产生不稳定现象(因为self-attention中的linear会使得0特征变为非0特征，然后又通过加权平均计算策略使得可能上次被选中的特征变为未被选中的特征)。为了解决这一问题，本文直接将上一层被设置为0的Self-attention特征，在下一层的attention matrix设置为0，这样该位置对应的特征就不能再使用了。

图2：SelMask

图3：self-attention没有使用mask和使用mask对比

Bounding box aggregation module思想

将位置坐标和宽高坐标通过concat融入图像特征，产生更全面的图像特征。

图4：Bounding box aggregation module

图5：基于MCAN改进的模型图

图6：基于LXMERT改进的模型图

实验结果

本文选取了两个基线模型，一个是from-scratch模型MCAN，另外一个是pre-training模型LXMERT。将上述的三个模块应用到MCAN，实验结果提升了0.4(test-dev 70.6到71.0， test-std 70.9到71.3)，应用在LXMERT上，实验结果提升了0.3(test-dev 72.4到72.7，test-std 72.5-72.8)。该结果验证了提出模块的有效性。

参考文献：

[1] Z. Yu, J. Yu, Y. Cui, D. Tao, Q. Tian, Deep modular co-attention networks for

visual question answering, in: CVPR 2019

[2] H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, in: K. Inui, J. Jiang, V. Ng, X. Wan (Eds.), Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing, EMNLPIJCNLP 2019, Hong Kong, China, November 3–7, 2019, Association for Computational Linguistics, 2019, pp. 5099–5110, doi:10.18653/v1/D19-1514.