语言不仅用于交流,也用于思考。EIKO OJALA
新奥尔良——“好的,我想今天把这篇文章写完。但是它应该如何开始呢?嗯,也许就是这样。等等,科学用的是“OK”还是“Okay”?许多人说,他们的脑海中流淌着一段内心独白,叙述着他们的生活。这一现象,加上大量的研究表明,人类不仅使用语言进行交流,而且还使用语言进行思考。
现在,人工智能(AI)似乎可能会从模仿人类的内心独白中受益。在一项实验室实验中,将语言与动作联系起来提高了人工智能程序学习复杂任务的能力,研究人员上个月在神经信息处理系统(NeurIPS)会议上报告说。这一进步可能使人工智能能够从YouTube教学视频中学习。
“我真的很喜欢这个,”罗马Sapienza大学的心理学家安娜·博尔吉(Anna Borghi)说,她研究认知和语言,没有参与实验。“最有趣的方面是,语言的存在赋予了灵活性。即使是复杂的操作也可以更容易地完成。
作为概念验证,不列颠哥伦比亚大学的计算机科学家Shengran 胡和Jeff Clune设计了一个人工智能代理,可以在由20×20网格组成的虚拟2D世界中执行任务。在多次试验中,网格被划分为九个房间,这些房间的配置各不相同,并由有时上锁的门隔开。人工智能可能必须找到一个特定的物体并将其放在另一个物体旁边,这可能需要数百个步骤,例如拿钥匙和开门。
智能体有两个组件,每个组件都包含一个神经网络——一种模仿大脑学习方式的软件架构。智能体可以“看到”网格的一部分,它所面对的方向,第一个组件利用这些“视觉”信息以及任务和智能体之前的想法来创造一个新的想法,例如“打开蓝色的门去探索”或“去紫色的盒子”。第二部分将思想与任务和观察相结合,以选择行动。一个想法可能需要几个到100多个步骤才能执行。
人工智能必须经过训练,为此,研究人员依赖于由专门设计用于解决此类问题的机器人完成的大型任务数据集,并生成逐步描述其正在做什么的文本。为了进行比较,他们还使用一种称为“行为克隆”的现有技术训练了代理。它学会了根据任务和观察来预测行动,而没有明确的想法。
然后,训练有素的特工在新的迷宫中被分配了新的任务。在最复杂的任务中,受过训练模仿动作和思想的特工成功率约为80%,而仅模仿动作的特工成功率仅为30%。胡解释说,语言可以帮助人们在不同的抽象层次上学习概念,然后以新的方式将它们组合起来。高级特工甚至可以在遇到意想不到的障碍后重新考虑计划,胡认为这很“酷”。
除了提高性能之外,使用胡和Clune所谓的“思想克隆”训练的AI还为用户提供了神经网络世界中罕见的东西:有机会看到代理在想什么。研究人员说,这应该有助于调试系统,也有利于安全:如果人工智能正在计划一些危险的事情,人类操作员可以判断并进行干预。胡说,在现有的静音系统中,“当你看到你的代理人冲向银行时,你不知道它是否会试图抢劫银行,或者只是试图为你获得一些现金。
在这种“犯罪前干预”的测试中,研究人员表明,他们可以在特工执行禁止的行为(例如触摸红色物品)之前阻止它。他们只是添加了一个由其思想触发的规则,而不必重新训练模型。Clune 对这种方法的效果感到惊讶。“你可能一直拿起刀,而脑海中却没有出现’我要拿起刀’这句话,”他说。但特工始终是有预谋的,使保障措施得以启动。
研究人员从头开始训练他们的系统。胡说,未来他们可能会尝试在预训练模型中添加一个内心独白组件,例如OpenAI的GPT-4 Vision,它已经包含了一般知识和推理的元素。最终,他们希望他们的思想克隆代理能够从YouTube视频等来源的大量信息中学习有用的技能,其中叙述者描述了每个步骤。“每一个视频,有人说,‘我现在要教你如何做羊角面包’,或者煮萨格芝士,或者更换这辆旧雪佛兰的化油器,或者修理漏气的轮胎,或者在Photoshop中编辑照片,或者在Expedia上预订航班,或者在Minecraft上盖房子”——这些都是学习的素材。 Clune说。
“我认为YouTube视频的想法非常有趣,”普林斯顿大学的计算机科学家姚顺宇说,他最近开发了ReAct,这是另一个推理和行动系统。他说,如果研究人员“获得OpenAI级别的资源”,这种方法可能是可能的。然而,这也可能导致人们担心人工智能开发人员从他们没有创造的内容中获利。
在一个人工智能可以克隆我们抽象和适应能力的世界里,“我们可以将人类的智慧及其清晰而强大的思维过程注入人工智能代理中,”Clune说。“对于人类来说,这是一项简单的任务,但对于人工智能或类似的东西来说,这是一个巨大的飞跃,”他说,显然是在寻找正确的词。