从产业视角看 AI 大模型的发展趋势：场景化、轻量化、类脑化

本文链接：https://blog.csdn.net/2401_85375298/article/details/140858258

0 引言

AI时代，大模型开启了全新科技变革。我们首先回顾一下信息时代的三个发展历程。第一阶段是个人计算时代。1981 年 IBM 推出世界上第一台 PC，90年代微软推出 Windows,使 PC 得以走入千家万户。第二阶段是网络互联时代。1994 年以前互联网已经存在，但是大家只用 FTP、Gopher 传输一些文件，直到网景推出第一款商业浏览器，我们才真正进入了互联网时代。2007 年苹果发布了第一代 iPhone，移动互联网开始腾飞。可以说，没有网景浏览器，就没有今天互联网的普及；没有 iPhone 的出现，就没有智能手机的真正起飞。第三阶段是AI时代。AI经过了三次起伏，直到 2010 年前后深度学习出现AI才开始加速发展。而 2022 年年底 ChatGPT 的推出，如同早年网景浏览器横空出世，有可能使AI真正进入百姓家。

从上述信息时代发展历程可见，每个阶段都有技术的更新迭代，新技术的出现使社会得到发展的同时，人类的某些技能也显得不再重要。例如，20世纪70 年代末很著名的史丰收速算法，因为个人计算机的普及而消失；1989 年有位全国劳模凭着5种不同记忆法，记下1.2万多个电话号码，100万次电话号码查询没有出错，但是互联网时代的到来使这种技能不再引人瞩目；而AI时代，尤其是 ChatGPT 的出现，使我们对其倍感“惊艳”的同时，对人类社会的发展无比担忧——哪些职业技能将被机器取代，人类还要发展什么技能，这里有很多值得大家思考的问题。

从 ChatGPT 推出到现在将近8个月的时间里，AI大模型技术日新月异，其产品和服务竞相发布。ChatGPT 插件平台能连接到第三方应用程序，如果说ChatGPT 是 iPhone 时刻，那么插件商店就是 App Store 时刻。谷歌推出 Duet AI for Google Workspace，在 Docs 和 Gmail 中辅助写作，在 Slides 和 Meet 中以文生图，在 Sheet 中自定义计划。Windows Copilot 作为AI助手，将集成到 Windows 11 各种应用和程序，包括 Office、Edge 浏览器和 Bing 搜索等。Midjourney V5 对比 V4 有更高的图像质量、更多样化的输出、更广泛的风格范围，尤其在手指的处理上有了明显的真实感提升。OpenAI GPT-4 比 GPT-3.5 生成可靠响应提高 40%，且 GPT-4 是多模态，支持文本和图像输入功能。除了上述闭源大模型外，Meta 公司不甘落后另辟蹊径，将模型 LLaMA 开源，提供非商业许可，其衍生品 Alpaca、Vicuna 等中小模型，训练成本仅几百美元，性能追赶 GPT-4。

图1展示了AI大模型生态的层次结构，从下到上分别是算力层、平台层、模型层、服务层和应用层。这里我们从产业视角看大模型的技术发展趋势，重点关注服务层，它连接下层的“基础模型”与上层的“各类应用”，需要解决大模型在应用落地时的痛点与需求，包括：

• 领域适配和个性化时的“场景化”需求；

• 训练与推理时的计算“轻量化”需求；

• 面对自主规划类问题的“类脑化”需求。

图 1 AI大模型生态的层次结构

1 大模型的场景化

大模型应用落地，首先要做到场景化。目前大模型基本上都是通用的，今后大模型真正爆发需要一个合理的商业模式，而它一定是垂直行业大模型，根据业务属性提供场景化服务。我们先看企业用户的需求。以商品推荐为例，大模型不仅需要在选品时帮助购买者聚焦，而且需要理解购买者的隐含需求。联想开发了一款面向联想商城的大模型，你让它推荐一台笔记本电脑，它会按使用场景分类推荐产品，同时它知道 6.18 临近，还会告诉你相关的打折促销信息。与之对比，如果我们使用一款通用大模型，只能得到同质化的产品推荐和笼统的价格范围，也不会和专用大模型一样提供打折信息。我们再看个人应用大模型所需要的定制化和个性化服务。以 Character.AI为例，它提供深度个性化的AI聊天机器人。虚拟 Elon Musk使用他的公开演讲、Twitter 等数据做训练，模型学习了其中的思想和交流方式，用户在聊天中可以获得很多的启发，如创业观点、对商业的思考方式等；虚拟 Psychologist ( 心理学家 ) 由一个临床心理学专业的学生创建，能在聊天时使人感到更多的理解与共情，而不是程序化地给出建议。这些场景化的需求是真实存在的，所以通用大模型的场景化对企业用户和个人用户来说都极为重要。

如何在通用大模型基础之上满足场景化的需求？其中一个基本方法就是在通用大模型上做全量参数的微调，把相关领域的知识灌进去重新微调后，大模型既具有通用大模型的能力，又具有专用大模型的能力。比如 Bloomberg 公司基于开源 Bloom 开发了金融领域的语言模型 BloombergGPT，它使用了私有金融数据 + 公共数据训练出 50 B规模的模型。BloombergGPT 在金融任务上大大超过了通用大模型，而在通用任务上与通用大模型基本持平。再如 Google 基于自己的 PaLM 开发了 Med-PaLM，用于为医学问题提供高质量的答案。在美国医学执照考试 (USMLE) 问题上，第一版超过及格分数；第二版 Med-PaLM 2 的准确率为 85.4%，达到专家水平。

如果仅微调少量参数 ( 或是额外引入少量参数 )，而无需微调预训练模型的所有参数，那就是参数高效的微调方法 (parameter-efficient fine-tuning ，PEFT)，可以降低对计算和存储资源的需求。LoRA (low-rank adaptation of large language models) 是一种 PEFT 技术，它固定预训练权重，引入可训练的低秩分解矩阵并调整其参数。这里可调整的参数量可能只是之前大模型的 0.1% 或者是 0.01%。由于预训练权重不需更新，仅更新低秩矩阵部分的参数，从而减少训练时的计算与存储；并且训练好的低秩矩阵可以合并到预训练权重中，不会引入推理延时。

如果大模型参数固定，调整的是输入问题，就是提示词微调。通过完善提示词的方法，可以挖掘模型的特定领域潜力。然而提示词微调并不能增加大模型的领域知识，如果我们不去微调大模型，还想挖掘出它的领域知识，则可以采用检索知识库来辅助。将用户查询和本地知识库检索结果一并发送给大模型作为提示输入，可以帮助大模型增强行业知识问答能力。此外，我们还可以通过外挂插件的办法增强大模型的专业领域能力。比如 ChatGPT 本身对数学的理解并不好，经常会给出错误答案。如果 ChatGPT 外挂 Wolfram Alpha 这个基于符号运算的科学搜索引擎，其理解用户问题可以转化成 Wolfram Alpha 需要的语法；即大模型实现自然语言到外挂模块调用的语法转换，利用它的强大符号运算能力，不仅能给出正确答案，还可以把结果图画出来。但是，Wolfram Alpha 的多轮对话能力非常差，有些问题它完全不懂你在讲什么。我们要想解决类似问题，大语言模型与外挂专有工具相结合会是一个非常好的场景化方法。

上面提到了五种场景化方法，它们有不同的适用性与局限性。表 1 总结了实现大模型场景化的方法和比较。

2 大模型的轻量化

大模型训练和推理时的能耗惊人。据估算，GPT-3 训练碳排放量约为一名乘客在纽约和旧金山之间往返飞行 550 次；ChatGPT 在 2023 年 1 月期间的推理成本约 1200 万美元左右。大模型的普及需要考虑轻量化，以节约成本和降低能耗。目前业界在考虑云边端协同的方式来部署大模型，这样可以带来低延迟、本地化、个性化等好处，同时也保护隐私与数据安全。如果进行边侧和端侧部署，也需要考虑大模型的轻量化。

采用 MoE (Mixture of Experts) 设计的网络可实现稀疏激活，从而实现训练和推理的高效计算，达到轻量化目的。MoE 可简单理解为模块化网络，每个子网络是个 expert，负责一个子集数据的推理任务。MoE 设计可以将 expert 数量加到很大，推理根据任务激活对应专家，从而实现高效计算。这个概念在 1991 年由 Michael Jordan 和 Jeff Hinton 等提出。2017年，Quoc Le、Geoffrey Hinton 和 Jeff Dean 将 MoE 结构嵌入到 RNN，使推理时极少数expert会起作用。这种稀疏性使在增加expert数量的同时，计算更高效。2021年，Google Brain的研究人员开发了SwitchTransformer，它是在T5 模型的基础上加入了MoE设计，得到了一个“又快又好”的预训练大模型。2022 年，JeffDean等基于MoE提出下一代AI架构Pathways，单模型实现多任务、多模态，以及高效模型训练；随后发布基于Pathways的语言模型，即PaLM 和 PaLM-2。

如果在设备端部署大模型，可以使用模型压缩和优化技术来达到轻量化。MLC-LLM实现了在个人设备上本地环境运行大模型，Vicuna-7B 经优化后仅需4GB内存，在iPhone 14Pro和iPhone 12Pro 可实时运行。另外，我们让大模型只维持“基本功能”，外挂模块实现能力扩展，也可以实现大模型的轻量化，比如前面提到的插件功能，还有Toolformer和TaskMatrix.AI等工具也是类似的思路。就大模型本身的能力而言，目前基于LLaMA的一系列中等规模的开源模型能力也在逐渐接近GPT-4，我们可以从UC伯克利大模型排行榜上看出来。

图 2 总结了实现大模型轻量化的驱动技术，包括采用 MoE 设计稀疏激活子网络，压缩与优化模型实现端侧部署，大模型负责中央控制、外挂插件实现功能扩展等。另外，主流评测显示最近发展起来的 13B 左右模型正在接近 ChatGPT/GPT-4 性能。

图 2 实现 AI大模型轻量化的驱动技术

3 大模型的类脑化

虽然今天的 AI大模型非常强大，但是它和人脑机理很不同，还有很多问题并没有很好的解决。想要达到通用人工智能 (AGI)，大模型还需要发展闭环反馈、自主规划、类脑结构等技术。深度学习三巨头之一的 Yoshua Bengio 提出了五个层次的 World Scope（世界规模）概念来反映语言模型的进步。第一层的世界规模基本上就是文本数据——自然语言训练的语料，模型的认知就是我们给它语料的大小。第二个层次，从文本数据上升到互联网级别的数据，相当于 GPT-3，它对世界的认知则是对整个互联网的认知。第三层，不仅是对文本的认知，还是一个多模态的认知，相当于 GPT-4，它对图片有了认知。第四层是物理世界的交互——AI模型能感知物理世界的环境状态，自主决策后续行动方案。第五层是多智能体协作——AI模型感知其他智能体的能力与行为，自主决策协作策略。目前主流大模型仅达到第三层，第四层和第五层也有一些前沿探索。

例如，谷歌对 World Scope 第四层进行了探索，PaLM-E 实现了闭环反馈的机器人规划控制，其解决的问题是如何将四种不同颜色的积木推到棋盘的四个角落，且每个角落积木的颜色相同。任务以文本序列形式输入大模型，大模型生成机械臂控制指令。摄像头观察棋盘的情况，转化成 token-sequence 反馈到大模型，生成进一步的机械臂控制指令，这个闭环反馈重复直到任务完成。最近流行的 AutoGPT 系列 Agent，可以认为是对 World Scope 第五层进行了探索。这类 Agent 可进行状态记忆和任务调度，基于 GPT-4 做任务理解，与搜索引擎等工具（广义的智能体）协作实现复杂任务。BabyAGI 就是这样的一个任务驱动型自主 Agent。对于提问“作为AI应该如何让世界变得更美好？ ”，BabyAGI 先产生一个初始建议列表，然后逐个分析。其中第 3 个建议是“利用AI帮助创造更高效和可持续的能源”，它经过思考认为第一次搜索结果不充分，又改变提问方式，进行第二次搜索后得到满意答案。

微软对 GPT-4 的实验报告《通用人工智能的火花》指出当前大模型的局限，“next-word prediction 机制缺乏任务规划能力”。例如，问大模型 150 ～ 250 中间有多少个质数，它通常给出错误的回答。我们换一个问法，让它先列出 150 ～ 250 之间的质数，再数数有多少个，它就能回答正确了。这其实是通过思维链辅助大模型做复杂问题的分解与规划。AutoGPT 系列则通过外置记忆模块与任务调度来实现复杂问题的分解与规划。丹尼尔·卡尼曼在《思考，快与慢》指出，快思考是一种直觉思维，容易出现错误和偏见；慢思考是一种理性思维，更准确可靠。现代大模型更类似于快思考，它需要慢思考机制来“规划”问题。学者们已经提出不同的类脑结构来改进当前大模型的不足，例如 Yann LeCun 提出实现自主智能的“世界模型”架构。

最后让我们回忆生成式理念的先驱——理查德·费曼（Richard Feynman，1918—1988）。费曼是加州理工学院物理学教授，因对量子力学的贡献获得了 1965 年的诺贝尔物理学奖。他被认为是爱因斯坦之后最睿智的理论物理学家。费曼的黑板上有这样一句话“What I cannot create, I do not understand”，它的逆否命题即是生成式 AI的理念“What I understand, I can create ”。

（参考文献略）

该文已发表于《中国人工智能学会通讯》2023年第13卷第7期

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~
在这里插入图片描述

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。