Visual Reasoning(1): CLEVR Dataset

CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

这项工作是Visual Reasoning领域的开山之作了~
李飞飞&FAIR构建了一个新的Reasoning dataset, CLEVR:
https://cs.stanford.edu/people/jcjohns/clevr/

合成的数据集,由一些简单的几何形状组成的视觉图像。数据集中的问题多涉及到复杂推理,问题类别包括:属性查询(querying attribute),属性比较(comparing attributes),存在(existence),计数(counting),整数比较(integer comparison),这些问题都是程序生成的。

包括一个main dataset,以及用于研究泛化性的CLEVR-CoGenT-A和CLEVR-CoGenT-B (A→A and A→B 两种测试方法)
在这里插入图片描述
feifei后续的一篇论文Inferring and Executing Programs for Visual Reasoning,还提出了CLEVR-humans,还是CLEVR的images,question-answer pairs则是人类写的,句式结构更加natural~

下面介绍下paper原文的一些内容

Introduction

现在的模型很多是直接给出一个答案,而没有中间的推理过程,这使得人们很难分析模型的缺陷,究竟是哪一块出现了问题。

大神这里也提到了CLEVR的提出动机:
https://www.zhihu.com/question/60784169/answer/180518895
VQA是给张图,你可以问任意问题,人工智能系统都需要给出正确答案。
VQA还是被当成个分类问题,没有发掘潜在的推理过程,离真正人类级别的reasoning还很远。
其中一个问题是,直接在自然图片上进行问答系统的研究太难了,很难debug整个系统。

还有个问题是dataset bias,模型也许没有进行推理,而只是通过某种隐式的线索记住了答案,而换了个数据集或者到了真实场景,就会失效。下面这个例子很好:
在这里插入图片描述
我自己再举个例子,比如问画面右边的花是什么颜色的,算法回答是红色。但它可能并没有依据画面进行推理,只是知道训练数据里问花的颜色往往是红色,所以凡是这个话题它都无脑蒙一个红色。。

所以希望建立一个物体抽象化的数据集,只能依据推理来判断,而尽量不留下其他可能的答案隐藏线索~

研究者开始通过graphics合成图片的办法来建立绝对可控的VQA数据库,有着丰富的推理过程标注以及最小的dataset bias,这样就可以更好的分析模型的行为。

所以,该数据集叫做Compositional Language and Elementary Visual Reasoning diagnostics (CLEVR), 意思大概就是,组合式语言结合基本视觉的推理诊断。

CLEVR contains 100k rendered images and about one million automatically-generated questions, of which 853k are unique

Test visual reasoning abilities such as counting, comparing, multiple attention(storing information in memory), and logical reasoning
在这里插入图片描述
图像比较简单,重点是研究推理的能力
images in CLEVR may be visually simple, its questions are complex
and require a range of reasoning skills.

CLEVR上使用SOTA VQA models,发现它们存在一些缺陷,比如不具备记忆能力以及组合推理能力
在这里插入图片描述
这段话说的很好:
Finally, we stress that accuracy on CLEVR is not an end goal in itself: a hand-crafted system with explicit knowledge of the CLEVR universe might work well, but will not generalize to real-world settings. Therefore CLEVR should be used in conjunction with other VQA datasets in order to study the reasoning abilities of general VQA systems.
初衷应该是用于研究VQA方法的推理能力,搞一个hand-crafted system来单纯刷performance没有什么意义
(但是我看之后的一些symbolic方法有针对这个数据集的嫌疑??)

Dataset Generation

首先定义好了语言函数规则
如物体属性,问题逻辑函数程序,执行函数
在这里插入图片描述
生成流程:
Fig. 2 中间的就是functional programs的两个例子,可以对应的填入不同参数,执行这个programs,可以得到一个answer。
在这里插入图片描述
在这里插入图片描述
先要生成一幅图像(见原文,不细说)
再挑选一个question family,其对应多种不同的表达方式,填入参数可以对应到多个表达模板,依据graph, excute program可以得到一个最终的answer。而text templates再生成一个自然语言表达的question
三要素,Visual image, Qustion, Answer 都生成出来了~

Discussion

实验部分见原文,不细说
直接看下discussion部分对SOTA VQA models的分析
在这里插入图片描述
注意一下, Disentangled Representations就是 Compositional Generalization,比如下面的A&B两种情况,在A上训练B上测试,performance会掉很多。说明比如model只记住了黄色的方块,换个绿的就无法推理了,而这本应该从绿色的球体也类比学习到的:
在这里插入图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 社会推理的认知神经科学是研究人类在社会情境中进行推理和进行决策的过程的领域。它结合了认知神经科学和社会心理学的理论框架,以揭示大脑在社会推理中发挥的角色。 社会推理是指人们对他人行为、观点、意图和情感的推理和解释。这种推理过程涉及到一系列的认知活动,包括注意力、记忆、情感处理和决策。通过研究认知神经科学,我们能够深入了解这些认知过程在大脑中的执行机制。 大脑中涉及社会推理的区域包括前额叶皮层、颞叶和扣带回等。例如,前额叶皮层特别与我们对他人的立场和意图的推理有关,颞叶则与面部表情和语言的理解相关。此外,研究还表明,神经系统中的一些神经递质,如奖赏系统中的多巴胺和仿内啡肽,也在社会推理中发挥重要作用。 通过使用功能性磁共振成像技术和其他神经影像学方法,研究者们能够观察大脑在不同的社会推理任务中的活动模式。例如,一些研究表明,在判断他人的情感时,大脑的扣带回和颞叶皮层活动增加。而在判断他人的动机和意图时,前额叶皮层的活动增加。 这些研究对于理解人类社会互动和决策行为的基础机制至关重要。它们也对心理健康问题,如自闭症谱系障碍和精神疾病等的研究具有重要的影响。通过深入研究社会推理的神经机制,我们可以为改善人类社会交往和心理健康提供更好的理解和治疗方法。 ### 回答2: 社会推理是我们理解和解释他人行为和意图的能力。认知神经科学致力于研究社会推理背后的神经基础。通过使用成像技术,如功能性磁共振成像(fMRI)和脑电图(EEG),研究人员能够观察到在进行社会推理时大脑不同区域的活动。 研究表明,社会推理涉及多个大脑网络。其中一个关键的网络是Theory of Mind(ToM)网络,它涉及前额叶、颞叶和顶叶的区域。这个网络在理解他人的信念、欲望和意图方面起着重要作用。通过观察这些区域的活动,研究人员能够了解他人意图和期望对我们自己的行为和决策产生的影响。 另一个与社会推理相关的网络是镜像神经网络。这个网络涉及到大脑的运动执行区域,主要与模仿和共情相关。研究表明,当我们观察他人的行为时,这个网络会被激活,使我们能够模拟和理解他们的行为意图。 此外,情绪和情感处理也在社会推理中起着重要作用。大脑的情感处理区域,如杏仁核和带状回,与理解他人情感和意向的情感共鸣有关。这些区域的活动可以影响我们对他人行为的解释和反应。 总的来说,社会推理是一个复杂的认知过程,涉及到多个大脑区域的协同作用。通过神经科学的研究,我们可以更好地理解社会推理的基础,并深入探索人类在社交互动中的行为和感知模式。 ### 回答3: 社交推理是指人们对他人的态度、意图和信念进行理解和推断的认知过程。社交推理是人类社会互动的重要组成部分,它涉及到我们如何理解他人的心理状态,以及用于解释和预测他人行为的能力。最近的神经科学研究揭示了社交推理的神经基础。 研究发现,社交推理涉及多个脑区的协同工作。前额叶皮层特别重要,负责处理社交情境中的认知冲突和不一致信息。我们的前额叶皮层还参与理解他人的意图、推断他人的目标和判断他人情感的能力。此外,扣带回皮层也被认为在社交推理中起着重要的作用,它与理解他人的信念、思考其他人的观点和评估他人社交行为的能力有关。 此外,神经科学研究还揭示了情感处理在社交推理中的重要性。边缘系统,尤其是扣带回和扣带回前部的活动,与理解和共感他人的情绪状态密切相关。此外,杏仁核被认为是社会情绪处理的关键结构,它对情绪信息进行加工和情绪体验的产生起着重要作用。 最近的研究还揭示了基因对社交推理的影响。例如,一些研究发现,基因对于影响情感识别、社交记忆和社交行为的能力具有重要作用。此外,某些神经发育相关基因也被发现与社交推理能力的差异有关。 总之,社交推理是人类社会交往中至关重要的认知过程。神经科学的研究揭示了脑区间的协同工作以及情感处理在社交推理中的重要性。此外,基因也被发现与个体社交推理能力的差异有关。这些研究为我们更好地理解人类社会互动的认知过程提供了重要线索。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值