阅读小结：From Recognition to Cognition: Visual Commonsense Reasoning (CVPR2019)

最新推荐文章于 2024-03-16 21:33:18 发布

会捉鱼的哆啦A梦

最新推荐文章于 2024-03-16 21:33:18 发布

阅读量2.1k

点赞数 3

文章标签：阅读小结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bilibalahhh/article/details/92840157

版权

本文介绍了CVPR2019的工作，提出视觉常识推理（VCR）任务，通过电影场景截图创建问答数据集。作者提出R2C模型，结合BERT和ESIM+ELMo进行多选项生成及答案推理。模型在Q->A、QA->R、Q->AR上的准确率分别为63.8%/65.1%、67.2%/67.3%和43.1%/44.0%，显示了视觉理解与推理的挑战性。

摘要由CSDN通过智能技术生成

文章链接：https://arxiv.org/pdf/1811.10830

cvpr2019中Rowan Zellers等作者提出了一个新任务：visual commonsense reasoning，简单来说是，给出一张图片，然后针对这张图片问一个问题，然后机器回答并且给出理由。在这篇文章里，作者的贡献分为4个部分：

提出视觉常识推理的任务；
展示一个大范围的多项选择的问答数据集VCR；
展示生成该数据集相关的新算法adversarial matching;
提出一个新模型R2C（从识别到认知），用来测试这个新任务。

其中vcr数据集中的图片，都是电影里的场景截图，并且人们是能够明显看出场景中正在进行的事件的。然后，作者请了一些工人，对这些图片进行提问并回答，这些问题中38%是解释性问题，即“为什么”或者“怎么做”， 24%包括认知层面的的活动，比如问场景中的人们当前正在干什么，13%是瞬时推理，猜测该场景之后即将发生什么。在这个任务里，我们首先需要对图片做一个obeject detection，其中可以圈出每个物体的bounding box，segmentation mask和class label。然后工人的提问中，每个词语需要是词汇表里的，或者是物体的tag。工人写的回答和理由内容和提问类似。

本文提出的adversarial matching算法用于生成多选项，这些备选选项与提问文本有联系，但是与正确答案不会过于相似。这里用到了自然语言处理最新的技术BERT和ESIM+ELMo

最低0.47元/天解锁文章

会捉鱼的哆啦A梦

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

会捉鱼的哆啦A梦 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

61万+: 周排名

151万+: 总排名

2417: 访问

: 等级

46: 积分

2: 粉丝

3: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

最新评论

开启新世界
致敬图灵: 大哥在哪里读PHD，看了你的另一篇博文，咱们研究方向有些像

最新文章

开启新世界

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。