RUBi: Reducing Unimodal Biases in Visual Question Answering

最新推荐文章于 2021-11-20 18:55:39 发布

小有名气的可爱鬼

最新推荐文章于 2021-11-20 18:55:39 发布

阅读量841

点赞数 3

分类专栏： VQA 文章标签： python 深度学习

本文链接：https://blog.csdn.net/weixin_42305378/article/details/105809513

版权

1. 文章概要

2. 文章介绍

4.1 RUBi learning strategy

5. 实验

文章下载：

1. 文章概要

作者认为，现有的VQA模型都是使用的单模态偏见（unimodal biases）来获得正确答案，而没有使用图像信息。一旦使用数据集之外的数据，模型的性能往往会急剧下降。所以提出了一种新的学习策略RUBi来减少VQA模型中的偏差，它降低了最具偏见的例子，也就是那些不需要看图像就能被正确分类的例子。VQA模型中使用了两个输入模块，替代了对问题和答案之间统计规律的依赖。作者使用一个问题模型（question-only model）来捕捉语言偏见，它能够动态调整损失，来补偿偏见。最后作者基于VQA-CP v2进行了验证，作者提出的模型效果明显胜过当前最好模型。

2. 文章介绍

现有的VQA模型需要更高级的场景和问题理解，比如更精细的识别，目标检测，计数，场景推理等。然而，他们倾向于利用答案出现次数和问题中某些模态之间的统计规律。虽然它们被设计来合并来自两种模式的信息，但在实践中，它们经常在回答问题时不考虑图像模式。比如大部分香蕉都是黄色的，那么对于“香蕉颜色”的这类问题，模型实际上并不会去仔细学习如何表征香蕉的颜色以达到更高的精度。简单的说，相较于“查看图像-检测香蕉-评估香蕉颜色”这样的流程，建立关键词“what, color, bananas”与答案"yellow"之间的关联更简单。

一种量化这种统计关联的方法是训练单模态模型（to train unimodal models）。比如，仅用问题模型（question-only model）也能够在测试集上获得44%的正确率。VQA模型并没有放弃这种关联方式，因为他们的训练数据集和测试数据集是有着同样的分布。然而，如果测试集的统计规律与训练集完全不同，那么测试精度则会急剧下降。不过，收集真实数据集时很难避免这些统计规则，所以为了更好地学习行为，下图为新的策略来减少来自问题模式的偏差的例子。

本文提出的RUBi，旨在减少VQA模型在训练期间学习到的单模态偏差。我们的策略降低了最具偏见的例子（这些例子可以在不考虑图像模态的情况下被正确分类）。它能够驱动VQA模型同时使用这两种输入模态（基于统计规律，有时候视觉模态是没有用到的），而不是依赖于问题和答案之间的统计规律。另外，作者还在VQA训练的顶部加入了问题模型（question-only models），通过动态的调整损失以补偿这种偏见的

最低0.47元/天解锁文章

小有名气的可爱鬼

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RUBi: Reducing Unimodal Biases in Visual Question Answering

1. 文章概要目录1. 文章概要2. 文章介绍3. 相关工作4. Reducing Unimodal Biases Approach（RUBI）4.1 RUBi learning strategy5. 实验文章下载：作者认为，现有的VQA模型都是使用的单模态偏见（unimodal biases）来获得正确答案，而没有使用图像信息。一旦使用数据集之外的数据，模型的...
复制链接

扫一扫

专栏目录