弗朗索瓦·肖莱关于智力测量的文章 - 第四部分:ARC 挑战(论文解释)

这段文字主要介绍了由 François Chollet 提出的 ARC(抽象与推理语料库)挑战,以及该挑战所使用的 ARC 数据集。

ARC 数据集包含 1000 个任务,每个任务都包含多个训练样本和一个测试样本。每个样本都包含一个图像以及一个输出。训练样本的输出是已知的,而测试样本的输出需要根据训练样本中的规律来推断。

举例来说,一个任务可能包含三个训练样本,每个样本都包含一个带有黑色方块的图像,以及一个与黑色方块形状和位置相匹配的输出。测试样本同样包含一个带有黑色方块的图像,但没有输出。人类可以根据训练样本中黑色方块与输出之间的关系,推断出测试样本的输出应该是什么。

ARC 数据集的目的是为了测试人工智能模型的抽象推理能力。由于每个任务都需要模型从训练样本中学习规律并应用到测试样本中,因此 ARC 数据集可以帮助研究人员评估模型的泛化能力和推理能力。

此外,这段文字还强调了 ARC 数据集的独立性,即使没有看过之前关于 ARC 挑战的视频,也可以理解这段文字的内容。最后,作者鼓励读者去看之前关于 ARC 挑战的视频,以便更深入地了解该挑战和数据集。

在本部分,我们着眼于 ARC 挑战作为一项机器智能测试的提议。该数据集包含 1000 个任务,测试基于人类核心知识先验的快速泛化,例如物体性、对称性和导航。大纲:0:00 - 简介0:55 - 什么是 ARC?6:30 - ARC 的目标10:40 - 假设的先验和示例21:50 - 一个想象中的解决方案28:15 - 解决方案的后果31:00 - 弱点31:25 - 我的评论和想法论文:https://arxiv.org/abs/1911.01547ARC:https://github.com/fchollet/ARC
摘要:为了朝着更智能、更像人类的人工系统取得有意的进展,我们需要遵循适当的反馈信号:我们需要能够以一种能够比较两个系统以及与人类比较的方式来定义和评估智能。在过去的一百年里,在心理学和人工智能领域,人们一直在尝试定义和衡量智力。我们总结并批判性地评估了这些定义和评估方法,同时揭示了隐含地指导它们的两种关于智力的历史概念。我们注意到,在实践中,当代人工智能社区仍然倾向于通过比较人工智能和人类在特定任务(如棋盘游戏和电子游戏)中表现出的技能来衡量智能。我们认为,仅仅衡量任何给定任务的技能不足以衡量智力,因为技能在很大程度上受先验知识和经验的影响:无限的先验或无限的训练数据允许实验者以掩盖系统自身泛化能力的方式为系统“购买”任意级别的技能。然后,我们基于算法信息论提出了一个新的关于智力的正式定义,将智力描述为技能获取效率,并强调了范围、泛化难度、先验和经验的概念。使用这个定义,我们提出了关于通用人工智能基准应该是什么样的一组指南。最后,我们提出一个紧密遵循这些指南的基准,即抽象和推理语料库 (ARC),它建立在一个明确的先验集之上,这些先验旨在尽可能接近人类的先天先验。我们认为 ARC 可以用来衡量一种类似人类的通用流体智力形式,并且它能够在人工智能系统和人类之间进行公平的通用智力比较。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YannicKilcher

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值