阅读小结:From Recognition to Cognition: Visual Commonsense Reasoning (CVPR2019)

本文介绍了CVPR2019的工作,提出视觉常识推理(VCR)任务,通过电影场景截图创建问答数据集。作者提出R2C模型,结合BERT和ESIM+ELMo进行多选项生成及答案推理。模型在Q->A、QA->R、Q->AR上的准确率分别为63.8%/65.1%、67.2%/67.3%和43.1%/44.0%,显示了视觉理解与推理的挑战性。
摘要由CSDN通过智能技术生成

文章链接:https://arxiv.org/pdf/1811.10830

cvpr2019中Rowan Zellers等作者提出了一个新任务:visual commonsense reasoning,简单来说是,给出一张图片,然后针对这张图片问一个问题,然后机器回答并且给出理由。在这篇文章里,作者的贡献分为4个部分:

  1. 提出视觉常识推理的任务;
  2. 展示一个大范围的多项选择的问答数据集VCR;
  3. 展示生成该数据集相关的新算法adversarial matching;
  4. 提出一个新模型R2C(从识别到认知),用来测试这个新任务。

其中vcr数据集中的图片,都是电影里的场景截图,并且人们是能够明显看出场景中正在进行的事件的。然后,作者请了一些工人,对这些图片进行提问并回答,这些问题中38%是解释性问题,即“为什么”或者“怎么做”, 24%包括认知层面的的活动,比如问场景中的人们当前正在干什么,13%是瞬时推理,猜测该场景之后即将发生什么。在这个任务里,我们首先需要对图片做一个obeject detection,其中可以圈出每个物体的bounding box,segmentation mask和class label。然后工人的提问中,每个词语需要是词汇表里的,或者是物体的tag。工人写的回答和理由内容和提问类似。

本文提出的adversarial matching算法用于生成多选项,这些备选选项与提问文本有联系,但是与正确答案不会过于相似。这里用到了自然语言处理最新的技术BERT和ESIM+ELMo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值