目录
4. Reducing Unimodal Biases Approach(RUBI)
1. 文章概要
作者认为,现有的VQA模型都是使用的单模态偏见(unimodal biases)来获得正确答案,而没有使用图像信息。一旦使用数据集之外的数据,模型的性能往往会急剧下降。所以提出了一种新的学习策略RUBi来减少VQA模型中的偏差,它降低了最具偏见的例子,也就是那些不需要看图像就能被正确分类的例子。VQA模型中使用了两个输入模块,替代了对问题和答案之间统计规律的依赖。作者使用一个问题模型(question-only model)来捕捉语言偏见,它能够动态调整损失,来补偿偏见。最后作者基于VQA-CP v2进行了验证,作者提出的模型效果明显胜过当前最好模型。
2. 文章介绍
现有的VQA模型需要更高级的场景和问题理解,比如更精细的识别,目标检测,计数,场景推理等。然而,他们倾向于利用答案出现次数和问题中某些模态之间的统计规律。虽然它们被设计来合并来自两种模式的信息,但在实践中,它们经常在回答问题时不考虑图像模式。比如大部分香蕉都是黄色的,