2016Analyzing the Behavior of Visual Question Answering Models

weixin_42653320

于 2021-07-28 21:31:05 发布

阅读量138

点赞数

分类专栏：视觉问答文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42653320/article/details/119172353

版权

本文分析了VQA模型的行为，揭示其在泛化、问题理解、图像理解方面的局限性，指出模型存在短视、过早得出结论和固执等问题。

摘要由CSDN通过智能技术生成

摘要

大多数模型性能大约在60-70%，本文，我们提出系统的方法来分析这些模型的行为，作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型，一种是有注意力和没有注意力，并显示了这些模型行为的相似性和差异，我们也分析了2016年VQA挑战赛的获奖项目。

我们的分析显示，尽管最近取得了进展，但今天的VQA是“短视的”(往往在足够新的例子中失败)，经常“跳到结论”(在听一半的问题后收敛在预测的答案上)，和“固执的”(不能根据图像改变它们的答案)。

一、介绍

大多数模型表现为60-70%，与2016VQA挑战的前9名的差距只有5%，而人类在开放式任务上性能在83%左右，在多选任务有91%。所以作为理解模型的第一步，是有意义的比较不同模型的优缺点，发展失败模型的模式，并确定最富有成果的进展方向，发展技术去理解VQA模型的行为是至关重要的。

本文中，我们发展了新的技术来描述VQA的行为，作为具体实例，我们分析了两种VQA模型。

二、相关工作

本论文致力于将行为分析作为诊断VQA错误的第一步，Yang等人将错误分为四类--模型关注错误区域；模型关注适当的区域但是预测了错误的答案；预测答案与标签不同但还可接受；标签是错误的。虽然这些是粗糙但有用的方式，但我们感兴趣的是理解VQA模型是否能推广到新的实例，是否听整个问题，是否看图像。

三、行为分析

我们沿三个维度分析VQA模型：

（1）推广到新的实例：我们调查回答不正确的测试实例是否是新的，测试实例的新可能有两种方

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2016Analyzing the Behavior of Visual Question Answering Models

摘要大多数模型性能大约在60-70%，本文，我们提出系统的方法来分析这些模型的行为，作为识别优缺点和识别最有成果的方向的第一步。我们分析两种模型，一种是有注意力和没有注意力，并显示了这些模型行为的相似性和差异，我们也分析了2016年VQA挑战赛的获奖项目。我们的分析显示，尽管最近取得了进展，但今天的VQA是“短视的”(往往在足够新的例子中失败)，经常“跳到结论”(在听一半的问题后收敛在预测的答案上)，和“固执的”(不能根据图像改变它们的答案)。一、介绍 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。