目录
4. Reducing Unimodal Biases Approach(RUBI)
1. 文章概要
作者认为,现有的VQA模型都是使用的单模态偏见(unimodal biases)来获得正确答案,而没有使用图像信息。一旦使用数据集之外的数据,模型的性能往往会急剧下降。所以提出了一种新的学习策略RUBi来减少VQA模型中的偏差,它降低了最具偏见的例子,也就是那些不需要看图像就能被正确分类的例子。VQA模型中使用了两个输入模块,替代了对问题和答案之间统计规律的依赖。作者使用一个问题模型(question-only model)来捕捉语言偏见,它能够动态调整损失,来补偿偏见。最后作者基于VQA-CP v2进行了验证,作者提出的模型效果明显胜过当前最好模型。
2. 文章介绍
现有的VQA模型需要更高级的场景和问题理解,比如更精细的识别,目标检测,计数,场景推理等。然而,他们倾向于利用答案出现次数和问题中某些模态之间的统计规律。虽然它们被设计来合并来自两种模式的信息,但在实践中,它们经常在回答问题时不考虑图像模式。比如大部分香蕉都是黄色的,那么对于“香蕉颜色”的这类问题,模型实际上并不会去仔细学习如何表征香蕉的颜色以达到更高的精度。简单的说,相较于“查看图像-检测香蕉-评估香蕉颜色”这样的流程,建立关键词“what, color, bananas”与答案"yellow"之间的关联更简单。
一种量化这种统计关联的方法是训练单模态模型(to train unimodal models)。比如,仅用问题模型(question-only model)也能够在测试集上获得44%的正确率。VQA模型并没有放弃这种关联方式,因为他们的训练数据集和测试数据集是有着同样的分布。然而,如果测试集的统计规律与训练集完全不同,那么测试精度则会急剧下降。不过,收集真实数据集时很难避免这些统计规则,所以为了更好地学习行为,下图为新的策略来减少来自问题模式的偏差的例子。
本文提出的RUBi,旨在减少VQA模型在训练期间学习到的单模态偏差。我们的策略降低了最具偏见的例子(这些例子可以在不考虑图像模态的情况下被正确分类)。它能够驱动VQA模型同时使用这两种输入模态(基于统计规律,有时候视觉模态是没有用到的),而不是依赖于问题和答案之间的统计规律。另外,作者还在VQA训练的顶部加入了问题模型(question-only models),通过动态的调整损失以补偿这种偏见的