2016Analyzing the Behavior of Visual Question Answering Models

本文分析了VQA模型的行为,揭示其在泛化、问题理解、图像理解方面的局限性,指出模型存在短视、过早得出结论和固执等问题。
摘要由CSDN通过智能技术生成

摘要

        大多数模型性能大约在60-70%,本文,我们提出系统的方法来分析这些模型的行为,作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型,一种是有注意力和没有注意力,并显示了这些模型行为的相似性和差异,我们也分析了2016年VQA挑战赛的获奖项目。

        我们的分析显示,尽管最近取得了进展,但今天的VQA是“短视的”(往往在足够新的例子中失败),经常“跳到结论”(在听一半的问题后收敛在预测的答案上),和“固执的”(不能根据图像改变它们的答案)。

一、介绍

        大多数模型表现为60-70%,与2016VQA挑战的前9名的差距只有5%,而人类在开放式任务上性能在83%左右,在多选任务有91%。所以作为理解模型的第一步,是有意义的比较不同模型的优缺点,发展失败模型的模式,并确定最富有成果的进展方向,发展技术去理解VQA模型的行为是至关重要的。

        本文中,我们发展了新的技术来描述VQA的行为,作为具体实例,我们分析了两种VQA模型。

二、相关工作

        本论文致力于将行为分析作为诊断VQA错误的第一步,Yang等人将错误分为四类--模型关注错误区域;模型关注适当的区域但是预测了错误的答案;预测答案与标签不同但还可接受;标签是错误的。虽然这些是粗糙但有用的方式,但我们感兴趣的是理解VQA模型是否能推广到新的实例,是否听整个问题,是否看图像。

三、行为分析

我们沿三个维度分析VQA模型:

        (1)推广到新的实例:我们调查回答不正确的测试实例是否是新的,测试实例的新可能有两种方

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值