RUBi: Reducing Unimodal Biases in Visual Question Answering

 

目录

1. 文章概要

2. 文章介绍

3. 相关工作

4. Reducing Unimodal Biases Approach(RUBI)

4.1 RUBi learning strategy

5. 实验

文章下载:


1. 文章概要

作者认为,现有的VQA模型都是使用的单模态偏见(unimodal biases)来获得正确答案,而没有使用图像信息。一旦使用数据集之外的数据,模型的性能往往会急剧下降。所以提出了一种新的学习策略RUBi来减少VQA模型中的偏差它降低了最具偏见的例子,也就是那些不需要看图像就能被正确分类的例子。VQA模型中使用了两个输入模块,替代了对问题和答案之间统计规律的依赖。作者使用一个问题模型(question-only model)来捕捉语言偏见,它能够动态调整损失,来补偿偏见。最后作者基于VQA-CP v2进行了验证,作者提出的模型效果明显胜过当前最好模型。

2. 文章介绍

现有的VQA模型需要更高级的场景和问题理解,比如更精细的识别,目标检测,计数,场景推理等。然而,他们倾向于利用答案出现次数和问题中某些模态之间的统计规律。虽然它们被设计来合并来自两种模式的信息,但在实践中,它们经常在回答问题时不考虑图像模式。比如大部分香蕉都是黄色的,

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值