本文来自Ben Dickson
在婴儿说第一句话之前,他们就已经形成了关于物体和人的心理模型。这是一个关键的能力,使人类学会生活在社会中并相互影响彼此。
但是对于人工智能来说,即使是最基本行为推理测试,仍然是一个挑战。
先进的深度学习模型可以完成复杂的任务,比如检测图像中的人和物体,有时甚至比人类更好。但他们很难超越图像的视觉特征,并推断出其他物体(人)正在做什么或希望完成什么。
为了填补这一空白,IBM、麻省理工学院和哈佛大学的科学家们开发了一系列测试,通过观察和理解世界,有助于评估人工智能模型对儿童进行推理的能力。
人工智能研究人员在一篇介绍名为AGENT的数据集的新论文中写道:“就像人类婴儿一样,机器代理发展足够的理解人类思维的能力,以便成功地参与社会互动,这一点至关重要。”
在今年的国际机器学习会议(ICML)上,AGENT为衡量人工智能系统的推理能力提供了一个重要的基准。
观察和预测代理行为
在人工智能系统中测试常识和推理有大量的工作。他们中的许多人专注于自然语言理解,包括著名的图灵测试和Winograd模式。相比之下,AGENT项目则侧重于人类在能够说话之前学习的各种推理能力。
麻省理工学院IBM沃森人工智能实验室的首席研究员Dan Gutfreund表示:“我们的目标是,遵循发展心理学的文献,建立一个基准,评估婴儿在语言前阶段(生命的前18个月)所学的与直觉心理学相关的特定常识能力。”
作为孩子,我们学会通过观察环境来区分物体和物体。当我们观察事件的发展时,我们会发展直觉的心理技能,通过观察别人的行为来预测目标,并不断修正和更新自己的心理状态。孩子学习这一切很少或根本没有指导。
AGENT(Action,Goal,Efficiency,coNstraint,uTility)测试背后的思想是评估人工智能系统能多好地模仿这一基本技能,它们能开发什么样的心理推理能力,以及它们所学的表征能多好地推广到新的情境。数据集包含短序列,显示一个代理朝着几个对象中的一个导航。这些序列是在3DWorld中生成的,3DWorld是一个虚拟的3D环境,设计用于训练人工智能代理。
AGENT测试分两个阶段进行。首先,AI被呈现一个或两个描述代理行为的序列,这些例子应该让AI熟悉虚拟代理的首选项。例如,代理可能总是选择一种类型的对象,而不考虑阻碍它的障碍,或者它可能选择最接近和最容易访问的对象,而不考虑其类型。
在熟悉阶段之后,AI将显示一个测试序列,并且它必须确定代理是否以预期或令人惊讶的方式进行操作。
这些测试总共3360个,跨越四种场景,从非常简单的行为(不管环境如何,代理都喜欢一种类型的对象)开始,到更复杂的挑战(代理显示成本报酬估计,权衡实现目标的难度和它将获得的报酬)。AI还必须考虑代理的动作效率(例如,当没有障碍物时,它不应该做不必要的跳跃)。而在一些挑战中,场景被部分遮挡,使得对环境的推理变得更加困难。
人工环境中的真实场景
测试的设计者已经考虑了人类的诱导偏差,这意味着代理人和环境受人类合理的规则控制(例如,跳跃或攀爬障碍物的成本随着障碍物的高度而增加)。这个决定有助于使挑战更现实,更容易评估。研究人员还注意到,这些偏见对于帮助创建更好地与人类行为协调和兼容的人工智能系统以及能够与人类同行合作也很重要。
人工智能研究人员通过亚马逊机械土耳其人测试了人类志愿者的挑战。他们的研究结果表明,平均而言,人类可以通过观察熟悉的顺序和判断测试样本来解决91%的挑战。这意味着人类利用他们对世界和人类/动物行为的先验知识来理解代理人是如何做出决定的(例如,在所有其他条件相同的情况下,代理人会选择报酬更高的对象)。
人工智能研究人员有意限制数据集的大小,以防止解决问题的非智能捷径。给定一个非常大的数据集,机器学习模型可能会学习做出正确的预测,而不会获得有关代理行为的基本知识。”仅仅在我们的数据集上从头开始训练是行不通的。相反,我们建议为了通过测试,有必要通过架构中的归纳偏差,或者通过额外数据的培训来获得额外的知识。
然而,研究人员在测试中发现了一些捷径。代理数据集包括场景每一帧的深度图、分割图以及对象和障碍物的边界框。这些场景在视觉细节上也极其简单,由八种不同的颜色组成。所有这些使得人工智能系统更容易处理场景中的信息,并专注于挑战的推理部分。
当前的人工智能解决了AGENT挑战了吗?
研究人员在两个基准人工智能模型上测试了AGENT挑战。第一个模型是贝叶斯逆规划和核心知识(BIPaCK),它是一个集物理仿真和规划为一体的生成模型。
该模型使用数据集提供的全部地面真相信息,并将其输入其物理和规划引擎,以预测AGENT的轨迹。研究人员的实验表明,当BIPaCK拥有场景的全部信息时,它的表现与人类相当,甚至更好。
然而,在现实世界中,人工智能系统无法获得精确标注的地面真相信息,必须执行复杂的任务,在不同的背景和光照条件下检测目标,这是一个人类和动物很容易解决的问题,但仍然是计算机视觉系统的一个挑战。
在他们的论文中,研究人员承认BIPaCK“需要精确的3D状态重建和物理动力学的内置模型,这在现实世界场景中不一定可用。”
研究人员测试的第二个模型代号为ToMnet- g,是DeepMind科学家于2018年提出的心理神经网络理论(Theory of Mind Neural Network, ToMnet)的扩展版本。ToMnet-G使用图神经网络对场景的状态进行编码,包括物体、障碍物和AGENT的位置。然后,它将这些编码输入长短期记忆网络(LSTM),以跟踪代理在帧序列中的轨迹。该模型使用从熟悉视频中提取的表征来预测测试视频中的代理行为,并将其评级为预期或意外。
ToMnet-G的优点是它不需要BIPaCK的预工程物理和常识知识。它从视频和之前在其他数据集上的训练中学习一切。另一方面,ToMnet-G经常学习错误的表示,不能将其行为推广到新的场景或当它有有限的熟悉信息时。
研究人员在他们的论文中指出:“ToMnet-G在没有许多内置先验的情况下,在类似的场景下进行训练和测试时,显示出了很有希望的结果,但在场景内部和场景之间,它仍然缺乏强大的泛化能力。”
两种模型之间的对比突出了人类在没有任何指令的情况下学习最简单任务的挑战。
Gutfreund说:“我们必须记住,我们的基准设计描述了非常简单的综合场景,解决了常识的每一个特定方面。”“在现实世界中,人类能够非常快速地解析复杂的场景,同时,与物理、心理学、语言等相关的常识的许多方面都在发挥作用。人工智能模型还远远不能做到这一点。”
常识与人工智能的未来
Gutfreund说:“我们认为,从狭义到广义的人工智能必须包括有常识的模型。”“常识能力是理解世界和与世界互动的重要基石,可以促进新能力的获得。”
许多科学家认为,常识和推理可以解决当前人工智能系统面临的许多问题,比如它们需要大量的训练数据,它们与因果关系的斗争,以及它们在处理新情况时的脆弱性。常识和推理是人工智能领域的重要研究领域,它们已经成为该领域一些最聪明的人的焦点,包括深度学习的先驱。
解决AGENT是创造能够在不可预测的人类世界中稳健行动的人工智能代理的一小步,但却是重要的一步。
Gutfreund说:“很难说服人们相信那些不按常理行事的自主代理。”“比如,一个帮助老人的机器人。如果机器人不遵循代理高效地追求目标的常识原则,当被要求从冰箱里拿牛奶时,它会以之字而不是直线移动,那么它就不太实用,也不值得信赖。”
AGENT是美国国防高级研究计划局(DARPA)机器常识(MCS)计划的一部分。MCS遵循两大目标。第一个目标是创造能够像孩子一样学习对物体、代理和空间进行推理的机器。AGENT就属于这一类。第二个目标是开发能够像人类研究者那样,通过阅读网络上的结构化和非结构化知识来学习的系统。这与目前的自然语言理解方法不同,后者只关注在非常大的文本语料库中捕获单词和单词序列之间的统计相关性。
“我们现在正在使用AGENT作为婴儿的测试环境。与DARPA MCS项目的其他参与者一起,我们计划探索与多个代理(例如,相互帮助或相互阻碍)以及使用工具实现目标(例如,打开门的钥匙)相关的更复杂的常识场景。我们还研究与直觉物理和空间理解相关的其他核心知识领域。”