卷积神经网络之父的强人工智能路线图:自监督,推理,规划

导读2023 年 6 月 9 日,智源大会第一天。在这场众星云集的盛会中。目前「深度学习三驾马车」中最活跃的 Yann LeCun 教授带来了重磅演讲「朝向能学习, 思考和计划的机器进发( Towards Machines that can Learn, Reason, and Plan)」。在此次演讲中,LeCun 对自己近年来倡导的自监督学习进行了梳理,从认知科学出发对人工智能领域未来 10 ...
摘要由CSDN通过智能技术生成

96f23d9cf86fb9a2485e8d1d868c8628.jpeg

导读

2023 年 6 月 9 日,智源大会第一天。在这场众星云集的盛会中。目前「深度学习三驾马车」中最活跃的 Yann LeCun 教授带来了重磅演讲「朝向能学习, 思考和计划的机器进发( Towards Machines that can Learn, Reason, and Plan)」。在此次演讲中,LeCun 对自己近年来倡导的自监督学习进行了梳理,从认知科学出发对人工智能领域未来 10 年的研究目标展开了更为宏大的畅想,提出了基于自监督学习、世界模型、推理、规划的强人工智能实现路线图。 

ea85d274cc1a60e59829683a4c43364a.png

b880ded9b04f6d24343becd0ee12e390.jpeg

Yann LeCun

FAIR 首席AI科学家,Facebook人工智能实验室负责人,曾获得“神经网络先驱奖”。同时是美国国家科学学院、美国国家工程学院和法学院国家科学院的院士。2018年图灵奖得主。出版图书《科学之路:人,机器与未来》。

在这里,我们将谈一谈人工智能的未来。

从根本上来说,我们要弥平观察到的人类/动物的能力与当下的工智能之间的差距。

当下的 AI 系统不仅缺少学习的能力,还缺乏推理和规划的能力。在本次演讲中,我们将讨论人工智能下一个十年将走向何方,我将给出一些初步的研究结果,但还没有形成完整的系统。

与人类和动物相比,机器学习还有很大的不足。数十年来,我们广泛使用监督学习技术,而这需要太多的标签。强化学习效果很好,但学习任何东西都需要大量的尝试。近年来,自监督学习蓬勃发展。但这些系统针对专门的领域开发,且十分脆弱,它们会犯一些愚蠢的错误。尽管它们反映迅速,但既没有真正的推理也没有规划。当我们与动物和人类进行比较时,动物和人类可以非常快速地执行新任务,了解世界是如何运作的,可以进行推理和规划。人和动物有一定程度的常识,这是机器所没有的。这一问题在人工智能社区由来已久。

507d3349d68db9e48a446da8e901117c.png

从一定程度上说,这是由于当前的机器学习系统在输入和输出之间有恒定数量的计算步骤,以致于它们真的不能像人类和动物那样推理和规划。

那么,如何让机器了解世界是如何运作的,并像人类一样预测行为的后果,如何执行无限步推理链,或者如何通过将复杂任务分解为子任务序列来进行规划?

在深入讨论之前,我们先谈谈近年来机器学习社区火热的自监督学习。今天,机器学习的许多成就都归功于自监督学习(特别是在自然语言处理和文本理解与生成领域)。

自监督学习

c0ac8035a936dc0d808afbe099de4633.png

自监督学习旨在学到到输入中的依赖关系,而非简单构建输入到输出的映射。我们只是得到了一个意见。通常,我们遮盖输入的一部分,并将其输入给机器学习系统,让系统重建确实的输入部分,训练系统来学到可见部分和被遮盖部分之间的依赖关系。有时,这一过程通过预测缺失的部分来完成,有时也不完全是预测。

这在几分钟内得到了很好的解释。本质上,我们使用监督学习的方法,但我们将它们应用于输入本身,而不是与人类提供的单独输出相匹配。这种方法在自然语言处理领域了惊人的成功,是最近成功的大语言模型的基础。

8275baa782b1527112aeb6f1622d4002.png

通过自监督学习,神经网络学习了一个很好的内部表征,可以用于许多后续的监督任务。此类方法在翻译、文本分类等任务上取得了成功。同样,自监督学习也曾为了一些图像、视频或文本的生成式人工智能系统的基石。

ae1add41f0811a2abff147dfa4f226a1.png

一些用于文本处理的自监督学习系统是自回归的。他们不是通过预测随机缺失的词例(Token)来训练自监督系统,而是循环预测最后一个 token。一旦系统接受了大量数据的训练,就可以进行自回归预测,即不断预测下一个 token,然后把这个 token 移到输入中,如此循环往复。

ea9ee14c3ee89accbaf2878a22e0fa4e.png

这就是近年来一些流行的大模型的工作原理:其中一些来自 Meta 的同事,包括开源的 BlenderBot、Galactica、LLaMA、Stanford 的 Alpaca(Lama 基于 LLaMA 的微调版)、Google 的 LaMDA 、Bard、DeepMind 的 Chinchilla,当然还有 OpenAI 的 ChatGPT 和 GPT-4。

如果使用一万亿个 Token 或两万亿个 Token 的数据训练模型,它们将获得惊人的性能。但实际上,它们也会犯很愚蠢的错误(事实错误、逻辑错误、不一致性等),它们的推理能力有限,会产生有害内容。

大量研究表明,这些系统缺乏底层的现实知识,因为它们纯粹是通过文本来训练的,无法完全理解人类知识,无法真正规划答案。然而,这些系统在编写辅助工具、生成代码以及帮助程序员编程方面都非常出色。

dc0f3ecfcd9e9fcfaa16889ec50e03d1.png

你可以让他们做各种事情:用各种语言写代码、生成文本,而且效果很好。但同样,他们会虚构一些故事。如果你想获知真实的信息,我们不如使用信息检索系统、搜索引擎。

所以,这些系统对于写作辅助、初稿生成、统计出版都很有帮助(尤其对于写作语言非母语者)。但此类系统不擅长给出真实、一致的答案。对于一些数据集中存在的行为,它们可以做得很好。然而,对于推理,计划,做算术之类的问题,他们要用搜索引擎计算器数据库查询之类的工具来解决。它们还需要得到进一步的训练。

目前研究的一个热门话题是,如何让这些系统调用上述工具。这被称为扩展语言模型。我和 FAIR 的同事讨论了为扩展语言模型提出的各种技术。我们很容易被目前的 AI 系统流畅的性能所欺骗,以为他们很聪明࿰

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值