如何实现AGI：大模型现状及发展路径（非常详细）零基础入门到精通，收藏这一篇就够了

最新推荐文章于 2025-03-18 09:15:00 发布

leah126

最新推荐文章于 2025-03-18 09:15:00 发布

阅读量2.1k

点赞数 12

分类专栏：程序员编程渗透测试文章标签： agi 人工智能机器学习

本文链接：https://blog.csdn.net/leah126/article/details/139704816

版权

程序员同时被 3 个专栏收录

1430 篇文章

订阅专栏

渗透测试

1064 篇文章

订阅专栏

编程

775 篇文章

订阅专栏

如何实现AGI：大模型现状及发展路径

根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义， AGI 能够执行一般人类可完成的认知任务、甚至超越这个范围。具体而言， AGI 应能够学习广泛任务，能够执行复杂、多步骤的任务。 DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水平进行分类，从 Level-0 无人工智能，到 Level-5 超越人类共 6 个等级。

**AGI**可以根据性能和广泛性划分为 6 个等级

现阶段大模型在处理任务的广泛性上还有很大提升空间，虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入，但尚未具备独立决策和执行行动的能力。此外，现阶段更多的模型仍聚焦在某单一领域进行性能提升，比如 Kimi 在处理长文本输入领域表现突出，但尚不能进行图片生成； Sora 能够高质量完成文生视频任务，但不具备问答功能。因此，现阶段评价大模型性能情况、分析模型演进方向，仍需根据模型专长领域进行分类。

大模型可根据功能进行分类

目前大模型能力仍处于 Emerging AGI 水平，就模型成熟度而言，语言大模型>多模态大模型>具身智能大模型。根据DeepMind 的定义， AGI 应能够广泛学习、执行复杂多步骤的任务。模型的 AGI水平可分为 Level-0 至 Level-5 共 6个等级，现阶段大模型在处理任务的广泛性上还有很大提升空间，即使是国际顶尖的大模型也仍处于 Level-1 Emerging AGI 阶段。不同类型大模型成熟度差异较大，目前大语言模型能力相对完善，落地应用场景丰富，底层技术路线较为成熟；多模态大模型已经能够面向 B\C 端推出商业化产品，但细节优化空间较大；具身智能类大模型还在探索阶段，技术路线尚不清晰。

现阶段讨论 AGI 能力提升仍需聚焦于多模态大模型的训练和应用。目前学界和业界重点关注 Scaling Law 的有效性，以及模型算法的可能改进方向。

§ Scaling Law 仍有深入空间。根据 OpenAI 研究，随模型参数量、数据集规模、训练使用的计算量增加，模型性能能够稳步提高，即 Scaling Law。从训练样本效率、训练时长、各类资源对模型的贡献维度来看，目前 ScalingLaw 仍是提高模型性能的最优方法。 OpenAI 测算在模型参数量扩展到 88 万亿及之前， Scaling Law 依旧有效，则中短期仍可延续此路线进行训练。

§ 模型骨干网络架构尚未演变至终局，微调及稀疏结构成为提升模型性能的重要方法。目前主流大模型均采用Transformer 作为底层骨干网络，但针对编码器\解码器选择、多模态融合、自注意力机制等方面的探索仍在持续推进。微调使用更小的数据量、更短的训练时间，让模型能够适应下游任务，以降低边际落地成本。以 MoE 为代表的稀疏结构通过分割输入任务并匹配专家模型，能够提高模型的整体性能。

开源模型性能优化速度快于闭源模型。目前第一梯队 AI 大模型纷纷进军万亿参数，且不远的将来大模型将逐步逼近十万亿参数收敛值，对于本轮 AI 浪潮而言，找场景或优于做模型。在场景选择方面，对“幻觉”容忍度高且能够替代人工的场景可实现应用率先落地，如聊天机器人、文本/图像/视频创作等领域；而对“幻觉” 容忍度较低的行业需要等待大模型能力提升或使用更多场景数据训练。

参考 OpenAI 的大模型研发布局，实现 AGI 的过程可以分为 3 个阶段，目前处于多模融合的第 2 阶段。 AGI 发展路径与当下各类模型水平相对应，即在语言大模型、视觉大模型相对成熟的基础上发展多模态大模型，而后探索具身智能类应用。

1.第一阶段为单模态系统，包括语言模型、视觉模型、声音模型等，各个模态独立发展；

2.第二阶段为多种模态、多种任务模型相融合。但根据模型的能力侧重点不同仍可分为两类：一是以 GPT-4 等为代表的多模态理解模型，二是更强调生成性能的多模态生成模型，如 Sora等。预计这两种能力会在后续的大模型发展中进一步融合。

3.第三阶段将进一步强调模型与外部环境的交互，以及面对复杂任务的处理能力，将以机器人或者一个设备的大脑为载体，进一步靠近乃至实现 AGI。

因此，现阶段讨论 AGI能力提升仍需聚焦于多模态大模型的训练和应用，在多模理解和多模生成能力较好融合后，再推演具身智能的模型框架、训练方法会更加清晰。

多模态大模型与语言大模型的训练流程相似，包括数据工程和模型工程两部分。其中数工程包括数据清洗、分词、位置编码等，模型工程包括模型框架选择、训练方法选择、算法选择、模型预训练、微调等。模型的预训练、微调、推理等环节均需要算力支持。

大模型训练主要环节

目前大模型正处在 Emerging AGI 阶段，多模态融合是现阶段发展的重点方向。在模型性能提升方面，无论是继续沿 Scaling Law 推进，还是探索神经网络骨干架构和细分算法的创新，均需要大模型厂商与数据工程类、算力支持类公司合作推进。

大模型厂商：国内头部 AI 大模型上市公司包括科大讯飞、商汤等。其中科大讯飞于2023 年5 月发布讯飞星火大模型，至 24 年1 月模型已升级至 V3.5 版本，根据公司测评，在七大核心能力上都获得了全面提升，在数学、语言理解和语音交互能力上还超越了 GPT-4 Turbo。商汤于 23 年4 月发布日日新系列大模型， 24 年 2 月模型更新至V4.0 版本，其中日日新商量大语言模型支持 128K 语境窗口长度，综合整体评测成绩水平比肩 GPT-4。

数据工程厂商及拥有丰富垂类数据的公司：海天瑞声是我国语音类基础数据服务领域头部企业，目前公司已推出 DOTS-LLM 大模型服务平台，平台包括数据采标、数据管理、模型训练和模型评测四大功能，旨在为千行百业数字化转型赋能。此外，在微调环节需要使用垂类行业数据，以提升模型在具体应用中的性能，拥有丰富行业数据积累的公司也有望收益。

算力产业链：上游包括芯片和元器件，中游包括服务器和网络设备，下游包括 IDC以及云服务等。其中，浪潮信息是算力系统供应商，支持多元异构算力、可适配多种架构的 AI 加速芯片；中科曙光积极建设“全国一体化算力服务平台”，致力于链接遍布各地各类算力中心；宝信软件多年专注于自主研发工业互联网平台宝联登 xln3 Plat和 AI 中台。

算力产业图谱