文章链接:https://arxiv.org/pdf/1811.10830
cvpr2019中Rowan Zellers等作者提出了一个新任务:visual commonsense reasoning,简单来说是,给出一张图片,然后针对这张图片问一个问题,然后机器回答并且给出理由。在这篇文章里,作者的贡献分为4个部分:
- 提出视觉常识推理的任务;
- 展示一个大范围的多项选择的问答数据集VCR;
- 展示生成该数据集相关的新算法adversarial matching;
- 提出一个新模型R2C(从识别到认知),用来测试这个新任务。
其中vcr数据集中的图片,都是电影里的场景截图,并且人们是能够明显看出场景中正在进行的事件的。然后,作者请了一些工人,对这些图片进行提问并回答,这些问题中38%是解释性问题,即“为什么”或者“怎么做”, 24%包括认知层面的的活动,比如问场景中的人们当前正在干什么,13%是瞬时推理,猜测该场景之后即将发生什么。在这个任务里,我们首先需要对图片做一个obeject detection,其中可以圈出每个物体的bounding box,segmentation mask和class label。然后工人的提问中,每个词语需要是词汇表里的,或者是物体的tag。工人写的回答和理由内容和提问类似。
本文提出的adversarial matching算法用于生成多选项,这些备选选项与提问文本有联系,但是与正确答案不会过于相似。这里用到了自然语言处理最新的技术BERT和ESIM+ELMo