突破性AGI综述：UIUC 120页长文揭示离AGI仅一步之遥？-CSDN博客

©作者 | UIUC U Lab团队

单位 | UIUC

研究方向 | 大模型智能体系统

近日，一篇关于 AGI 的综述观点性论文火了。文章深入探讨 AGI 发展历史和现状，探索 “AGI 离我们有多远以，及如何安全通往 AGI”。

在刚刚结束的 ICLR 2024 workshop 上全场座无虚席，大家都对一个话题感兴趣“我们距离 AGI 还有多远”。在场图灵奖教授 Yoshua Bengio，以及 Choi Yejin，Song Han 等著名学者深入探讨了 AGI 的相关话题，包括了“我们如何更好定义AGI”，“如何跟安全有效地到达AGI”，“实现 AGI 的目前主要障碍”。

▲ 图一：AI 不断超越人类的领域比例（估算）以及关键工作

随着 OpenAI 最新发布的 GPT-4o 和 Google I/O 大会的突破性进展，AGI 的发展又往前进了一步。我们正处在一个前所未有的转折点，AGI 的曙光已经隐约可见。尽管现有文献从不同角度对 AGI 进行了研究，但往往缺乏对其发展轨迹的全面评估和对目标的精确定义，这使得从当代 AI 到 AGI 的过渡，以及 AGI 往更深层级的发展变得模糊不清。

作者认为，现在比以往任何时候都更需要全面探讨 AGI。这个时代正在呼唤新的思维方式和突破性技术，我们正站在一个即将迎来智能革命的风口浪尖。AGI 时代即将到来，未来的无限可能性正等待着我们去探索与实现。

论文链接：

https://arxiv.org/pdf/2405.10313

Github链接：

https://github.com/ulab-uiuc/AGI-survey

本文中，来自 UIUC 的团队对最近的 AGI 发展展开了全面调研，并着眼于 AGI 技术的五大方面：内在能力、外在接口、系统、安全对齐，以及 AGI 的评估和实现。这篇论文深入探讨了“人类离通用人工智能（AGI）还有多远”，以及“如何更加安全地通往 AGI？”这两个关键问题。

▲ 图二：文章整体架构，AGI 实现的基础以及安全地在各个领域中体现

1. AGI 组件：包括 AGI 内部能力、AGI 接口和 AGI 系统三个方面。其中，AGI 内部涉及感知、推理、元认知和记忆；AGI 接口连接数字世界和物理世界，并涉及其他智能体和人类的交互；AGI 系统则包含架构、算法、成本/效率和平台等内容。

2. AGI 对齐技术：作为连接 AGI 组件与负责任 AGI 方法的桥梁，对齐技术确保了AGI的发展能够契合人类的价值观和需求。

3. 负责任地实现 AGI 的方法：包含了 AGI 发展的各个层次、应对 AGI 挑战的策略、对 AGI 现状和发展的评估，以及可能的解决方案。

4. 案例研究：从科学发现、生成式视觉智能、世界模型、去中心化 LLMs、AI 编程、AI 机器人和人机协作等方面，提供了 AI 技术在现实场景中应用的案例分析。

▲ 图三：AGI 的内在能力，包括感知、推理、记忆和元认知能力

文章的第二章着重介绍了 AGI 内部的演进。AGI 内部应作为一个有机整体，各个模块之间持续互动，并为 AGI 与外部的交互提供支持。每个模块在未来的研究可以关注以下方面。

感知（Perception）：增强多模态的感知和融合，发展出像人一样的认知感知

推理（Reasoning）：努力实现稳健、易懂、高效、长期视角的推理，全面优化预训练、微调和策略提示阶段的推理能力

记忆（Memory）：高效管理和利用不同层次的记忆，整合检索与推理，使知识和经验能自动更新

元认知（Metacognition）：专注于最少外部指导下的自我进化和元学习，提升认知能力，强调自我意识的潜力，并考虑伦理影响

▲ 图四：AGI 与外部世界的接口，能顺利和数字世界，物理世界以及与其他智能进行交互

作者接着讨论了 AGI（通用人工智能）接口的演进。它分为三个主要的接口类别：

数字接口：

当前状态：网页界面、代码解释器、API 等场景

未来：数字接口将从网页过渡到代码解释器，然后到 API。最终，AGI 发明的工具将会出现。

物理接口：

当前状态：用于物理交互的机械臂、各种类型传感器

未来：物理接口将进步到包括声音感知输入、视觉感知输入、商用机器人，并最终实现更精确的机器人控制。

智能接口：

当前状态：与人类交互、与智能体交互

未来：智能接口将演变为与软件智能体的通信，导致安全性和一致性的提高，以及智能体网络的形成。

▲ 图五：关于目前 AI 的系统讨论

文章的第四章着重介绍了 AGI 系统相关的内容，从大语言模型的切入点介绍了包含了多个角度的内容工作：

1. 模型架构层面：自注意力机制的技巧，模型参数压缩，内核算子优化，以及一些区别于现在主流 Transformer 的架构介绍

2. 模型训练：高性能计算框架，内存/显存管理系统，下游任务微调模型技巧，去中心化大语言模型系统，和大模型的训练机制以及实验性的研究工作

3. 模型推理：Decoding 算法，消息请求的调度算法，以及多模型的部署技巧

4. 效率与能耗：介绍了关于“数据经济学”的理论和算法，模型融合，以及自动化深度学习和大模型的系统工作

5. 计算平台：计算成本，加速器的迭代更替，以及新的硬件所带来的机会与算法的联系

并且在结尾基于现有介绍的工作的优势与局限性，结合着 AI 发展趋势与用户需求，提出了一些对于 AGI 系统能力以及模式的畅想以及一些热点方向的可能性：如何训练千亿参数模型？如何同时部署超过一千个不同的 LoRA Heads？如何有效的整合分散的计算资源（新的训练模式）？下一代的 AGI 系统所提供的服务类型等。

▲ 图六：理想的 AGI 系统架构

文章的第五章深入探讨了 AGI 对齐技术，着眼于如何利用 AGI 的能力以适应生产和日常生活中的实际应用。具体内容如下：

1. 当前对齐技术：分析了在线人类监督、离线人类监督以及交互式监督三种主要的 AGI 对齐方法。这些方法各有特点，旨在确保 AGI 系统的行为与人类利益保持一致。

2. AGI 的期望与能力：从 AGI 的内部能力、界面以及系统整体进行了详细介绍，同时强调了与 AGI 相关的伦理问题，如公平、安全、隐私、信任和透明度。

3. 未来对齐策略：探讨了基于参与者和基于交互的两种潜在 AGI 对齐路径。其中，基于参与者的对齐侧重于 AGI 与工具、代理和人类的互动；而基于交互的对齐则强调简单互动、约束以及超人类智能的整合。

4. 伦理与技术的补充：深入探讨了技术发展应如何与伦理标准相结合，以确保 AGI 系统的发展既符合技术进步的要求，也符合社会的伦理期望。

5. 综合讨论与未来展望：在综合现有研究的基础上，结合 AI 发展的趋势与用户需求，本章提出了对 AGI 系统能力及其应用模式的未来畅想，指出了当前研究的优势与局限性，并探讨了未来的发展方向。

本章不仅阐述了 AGI 对齐技术的现状和挑战，还展望了这一领域未来可能的发展路径，旨在推动 AGI 技术的实际应用与伦理发展步伐相协调。

▲ 图七：AGI 对齐方法框架

AGI 分类机制

文章首次比较清晰地定义了 AGI 的三个发展等级：

第一级（初始 AGI）：代表当前最先进的 AI 系统，如 GPT-4。这些系统在广泛的任务中表现出色，能够理解自然语言、生成连贯且符合上下文的响应，并执行复杂的推理。但它们的性能仍然局限于特定领域，可能无法在所有任务中始终超越人类水平。

第二级（超人 AGI）：在这一级别，AGI 系统在多个领域和任务中展现出优于人类的性能，无论是在效率、可靠性还是创新能力方面都有突出表现。它们能够从有限的数据中学习，跨领域泛化知识，并在最小人工干预的情况下适应新环境。

第三级（终极 AGI）：作为 AGI 发展的巅峰，这一级别代表理想化的 AI 系统。终极 AGI 将拥有远超人类的学习、推理和决策能力，同时与人类的价值观和目标保持高度一致。不过。实现终极 AGI 仍是一个理论概念，其可行性有待持续研究和讨论。

▲ 图八：AGI 三个等级以及人类水平

上面地雷达图形象地描述了三个等级在不同维度上的能力区别以及和人的能力的比较，下表更加详细的就不同等级所具备或者不具备的特征予以说明：

随后第六章还探讨了 AGI 合适的评估体系，文章概述了 AI 系统评估的发展历程和现状，指出理想的 AGI 评估框架应具备全面性、公平性和效率等特点。作者讨论了现有评估方法的局限性，如过度依赖数值指标、替代指标、缺乏失败分析以及缺乏更通用的任务等，为未来 AGI 评估框架的发展提供了思路。

▲ 图十：AI 研究者对于 AGI 到来时间的预估

随后作者总结了 Yoshua Bengio, Choi Yejin 等人在 workshop 现场表达的主要观点以及在研讨会上讨论或者作者认为重要的通往 AGI 的一些关键问题，例如“目前的通往 AGI 的主要障碍是什么？”，“目前自回归生成模型还能走多远”以及“研究者们对 AGI 到来时间的预估”。

在文章的结尾，作者对目前AI领域的多个热门方向展开了深入分析，例如 AI 科学发现、视觉生成模型、人机合作等。通过细分的实例研究，全面展示了 AI 在近些年的爆炸式增长及其对人类生活各个方面的深远影响。

AGI 时代的到来不再只是梦想，它正在逐步成为现实。未来的无限可能性正等待着我们去探索与实现，而这份综述将成为引导我们前行的指南。

更多阅读