2016Analyzing the Behavior of Visual Question Answering Models

摘要

        大多数模型性能大约在60-70%,本文,我们提出系统的方法来分析这些模型的行为,作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型,一种是有注意力和没有注意力,并显示了这些模型行为的相似性和差异,我们也分析了2016年VQA挑战赛的获奖项目。

        我们的分析显示,尽管最近取得了进展,但今天的VQA是“短视的”(往往在足够新的例子中失败),经常“跳到结论”(在听一半的问题后收敛在预测的答案上),和“固执的”(不能根据图像改变它们的答案)。

一、介绍

        大多数模型表现为60-70%,与2016VQA挑战的前9名的差距只有5%,而人类在开放式任务上性能在83%左右,在多选任务有91%。所以作为理解模型的第一步,是有意义的比较不同模型的优缺点,发展失败模型的模式,并确定最富有成果的进展方向,发展技术去理解VQA模型的行为是至关重要的。

        本文中,我们发展了新的技术来描述VQA的行为,作为具体实例,我们分析了两种VQA模型。

二、相关工作

        本论文致力于将行为分析作为诊断VQA错误的第一步,Yang等人将错误分为四类--模型关注错误区域;模型关注适当的区域但是预测了错误的答案;预测答案与标签不同但还可接受;标签是错误的。虽然这些是粗糙但有用的方式,但我们感兴趣的是理解VQA模型是否能推广到新的实例,是否听整个问题,是否看图像。

三、行为分析

我们沿三个维度分析VQA模型:

        (1)推广到新的实例:我们调查回答不正确的测试实例是否是新的,测试实例的新可能有两种方式:1)测试问题-图像对是新的;2)测试QI对是相似的,但在测试集需要的答案是新的。

        (2)完整的问题理解:我们分析模型是否听了问题的前几个词还是整个问题。

        (3)完整的图像理解:我们研究模型的预测是否根据图像而变化。

        基于没有注意力的模型CNN+LSTM:在VQA验证集上实现54.13%的准确率,一个双通道模型--一个通道用CNN处理图像,另一通道用LSTM处理问题,将这两个通道获得的图像和问题特征结合起来,并通过一个FC层获取在答案空间上的softmax分布。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值