H-ARC数据集:由纽约大学的心理学系和数据科学中心创建,分析和理解人类如何解决抽象推理问题

2024-09-03 ,由纽约大学的 心理学系和数据科学中心创建H-ARC数据集,是一个包含所有提交和动作追踪的数据集,以分析和理解人类如何解决抽象推理问题。有助于揭示人类认知的复杂性,并为开发更智能、更接近人类思维方式的人工智能系统提供了重要的数据和见解。

目前遇到困难和挑战:
  1. 人工智能的挑战: 当前的人工智能方法在处理ARC任务时面临挑战,因为这些任务需要广泛的泛化能力和抽象推理能力。
  2. 人类表现的不确定性: 之前的研究只使用了ARC任务集的一个子集来评估人类表现,这可能导致了对人类整体能力的估计不够准确或全面。
  3. 人类与AI的比较: 需要一个更精确的基准来比较人类和机器在解决相同问题时的性能,以便更好地理解AI的局限性和潜力。

数据集地址:H-ARC (human-ARC)|认知科学数据集|人工智能数据集

H-ARC:数据集:

数据集包含了1729名参与者在尝试解决ARC中的全部800个问题(包括400个训练集和400个测试集)时的表现数据。详细记录了参与者的每一步操作、尝试次数、以及他们提交的自然语言描述等。

H-ARC利用ARC任务来收集和分析人类解决这些问题的行为数据,以此来研究人类的认知能力和推理策略,并与机器学习模型的表现进行对比。

抽象与推理语料库 (ARC) 是一种可视化程序综合基准测试

ARC是一个用来测试人类和机器在没有特定领域知识的情况下,通过给定的示例来推断规则和解决问题的能力。以下是ARC任务的难度级别,以及人们在解决这些问题时的行为模式。

Easy training task:

这是训练集中的一个简单任务,意味着大多数参与者在两次尝试内就能解决它。

Easy evaluation task:

这是评估集中的一个简单任务,尽管被标记为简单,但图中指出即便是这样的任务也没有被顶级的语言模型(LLM)解决方案完全解决。

Hard training task:

这是训练集中的一个困难任务,很少有参与者能在两次尝试内解决。

Hard evaluation task:

这是评估集中的一个困难任务,同样地,解决它的难度很高。

每个任务旁边的状态空间图显示了参与者尝试解决问题时所经过的不同状态。这些状态空间图可以帮助研究人员分析和理解参与者在解决问题时的行为模式和思考过程。

让我们来看一下这个数据集的应用:

比如,我是一名研究员,我和团队正在负责一个项目 :揭秘决策脑回路。

背景:

我们团队对人类的决策制定过程特别感兴趣,尤其是当人们面对复杂问题时,大脑是如何工作的,以及不同的思考策略是如何影响他们解决问题的效率的。

研究困境:

我们以往的做法是招募一些志愿者,让他们在实验室里解决一些抽象推理问题,同时用脑成像技术(如fMRI)来观察他们大脑的活动。但这种做法有几个问题:

1. 样本量太小,每次只能观察到几十个人,很难得出普遍性的结论。

2. 实验室环境和真实世界相差太远,可能影响人们的自然表现。

3. 缺乏详细的动作记录,无法精确捕捉到思考过程中的每一个变化。

H-ARC带来的突破

这个数据集包含了1729名参与者在解决ARC任务时的15744次尝试,包括每一步的动作记录。这让我们看到了新的希望。

我们选取了一个特别难的ARC问题,发现大多数人一开始都采用了类似的策略,但很快发现行不通。通过H-ARC数据集,我们可以精确地看到:

1. 每个人尝试这个问题的次数,每次尝试的步骤和耗时。

2. 每个人在什么时候尝试改变策略,新策略和原策略有什么不同。

3. 改变策略后,是否找到了正确答案,或者依然失败。

我们还发现了一个有趣的现象:那些在第二次尝试就改变策略的人,最终找到正确答案的比例明显更高。这提示灵活调整策略可能对解决问题非常重要。

深入探索:

基于这个发现,我能设计了一个新的实验:邀请一些人到实验室,给他们解决同样的ARC问题,同时用fMRI扫描他们的大脑活动。他们特别关注:

1. 当参与者尝试改变策略时,大脑的哪些区域会活跃起来。

2. 这些脑区活动和最终解决问题的成功率之间有无关联。

我们最终发现

当人们尝试改变策略时,大脑的前额叶皮层会明显活跃,而这个区域和高级认知功能(如规划、决策)密切相关。而且,前额叶皮层活跃程度更高的人,更有可能找到正确答案。

应用前景:

1. 认知障碍治疗:通过训练患者更灵活地调整策略,可能有助于改善他们的认知能力。

2. 人工智能:让AI模拟人类这种灵活调整策略的能力,可能有助于开发出更智能的算法

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值