【人人都能看懂的大模型原理】（一）

AI知识分享官

于 2024-09-28 14:55:39 发布

阅读量818

点赞数 22

文章标签：人工智能语言模型产品经理算法自然语言处理程序人生神经网络

本文链接：https://blog.csdn.net/DAMOXINGHAITAI/article/details/142615579

版权

前言

当前大模型的学习资源呈现爆发趋势，各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点：只摆事实而不讲道理；只讲应用可能而不提实现代价；只讲可能性而缺乏实操经验分享；洞察材料比比皆是而缺乏深入分析。当然，大模型的技术体系非常庞大，全面了解非常困难。从横向来看，涉及到语言大模型到多模态大模型；从纵向来看，又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料，能够将复杂问题简单化，并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一，并且绕过复杂的公式化表达和推导，给读者深入浅出的理论解释，帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理，才能应对千变万化的应用需求。本文章适合各个角色的人阅读，包括BD、SA、PLM、研发和各层管理者。

在这里插入图片描述

一、大模型的外在表现和现实意义

1.1 泛化性和边际成本问题

最近几年，大模型甚嚣尘上。特别是自ChatGPT推出之后，大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢？大模型到底解决什么什么现实问题？人类经历了第一波深度学习热潮和退潮之后，体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来，大模型进入了千行百业。从最早的监控和泛娱乐行业，到后来的工业生产，深度学习技术都和行业紧密结合。本文作者自己经历了整个过程，从刚进公司部门200人到现在的2000人，作者经历了AI进入千行百业的完整过程。

然而，AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入，千万次复制，最终边际成本趋向于零。然而,由于上一波AI浪潮中，深度学习表现出非常差的泛化性，导致只要切换一个场景，都需要研发人员参与定制。比如最常见的人脸识别技术，手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题，都将重新开发模型。在工业领域，这种现象就更加明显，在工业检测中，摄像机安装角度的改变，或者检测目标的改变，都需要重新定制模型。这就导致你无法做一个通用模型，然后无限推广。因此上一波AI技术浪潮中，大多数创业公司盈利都非常困难，除了少数在大场景下获得足够市场空间的几家公司成功上市以外，绝大多数AI创业公司都很难长大。如此之下，AI进入千行百业就变成一句空话了，因为并非所有的行业都有高额利润。那些低利润行业（农业、低端制造业）都无法享受AI的红利。当然，小模型的泛化性差的原因有很多，比如信号的变化太多，信号模式挖掘不够充分等等，作者在此不再分析。

大模型因为其巨大的学习量天生具备更加优良的泛化性。这让大家看到了解决模型泛化性，甚至达到通用人工智能（AGI）的曙光。当然，这也吸引了无数的资本。

1.2 传统降低边际成本方案

在讲大模型是如何提升泛化性之前，我们不妨回顾一下过去几年，我们降低边际成本的一些方案。这些方案从一定程度上降低边际成本，但是泛化性明显还是不足。

1.2.1 ModelArts Pro工作流

在传统AI模型开发过程中，模型泛化性太差，导致需要不断进行迭代优化。并且切换一个相似的任务，也需要重新开发一次。效率非常低下。比如OCR任务需要解决非常多不同种类的表单的识别。而小模型又无法进行通用识别。因此需要反复开发模型应对各种发票、身份证、驾驶证等等。但是我们发现，其实每一次迭代或者相似任务的重新开发，流程都差不多。基本上表现为收集数据、标注、训练、转模型、部署推理引擎。

如此多重复的劳动，能否借助工具来提升呢。ModelArts Pro的设计理论就源于此。先在平台中内置某一些大类任务的完整训练代码，然后通过工作流的方式暴露部分接口，并自动化运行剩下的部分。

1.2.2 ModelArts数据回流和主动学习

传统AI开发范式中还有一个特点，就是算法开发者大部分时间都在治理数据，包括数据采集、标注和质量治理。这部分时间占比因任务不同而不同。如遇到数据很稀缺的场景，那么这部分工作就变得非常繁重。为了应对这个问题，ModelArts开发了自动数据回流系统，能够在POC阶段介入用户系统，并快速实现数据的自动收集。配合主动学习策略对数据进行筛选，以获得对模型完备性有利的数据。

1.2.3 半监督学习

数据标注同样是一项非常繁琐的工作。如果能够减少这部分工作量能够极大加速开发流程。半监督学习是非常有效的解决手段，通过极少数的标注，甚至弱标注，就能够训练一个媲美全监督训练的模型。下图1.6是半监督学习的三大理论方案，在此不再赘述。

1.3 大模型的智能涌现

以ChatGPT为代表的大模型引起用户广泛兴趣的重要特点是智能的涌现。过去的模型虽然也有智能的产生，但是没有表现出涌现现象。ChatGPT的智能涌现表现为三方面。

1.3.1 Few Shot或Zero Shot能力的涌现

所谓Few Shot和Zero Shot是指模型不需要学习新样本或者学习少数几个样本，就能学习到新的智能。这种能力让人产生一种误解，认为AI已经达到人的学习能力了，能够举一反三。但是理论上并非如此，我们在后文会慢慢揭晓迷雾。不过抛开理论，大模型的确表现出了这种能力，并且在一定范围内可以被广泛运用。

1.3.2 思维链能力的涌现

思维链能力是大模型最为惊人的表现。所谓思维链是指大模型能够依据思维链针对问题进行分析和推理。最典型表现是可以完成各种考试题目，编写代码，甚至能够针对问题和现象进行因果分析。下图1.8给出一个实际的案例。思维链能力给人一种错觉，觉得AI似乎具备了人的逻辑推理能力。大模型的思维链能够在广泛应用于很多依赖简单推理的场景，比如故障诊断、病例诊断等。并且为了增强思维链，科学家也发明了增强思维链能力的方法。

1.3.3 创新能力的涌现

大模型的创新能力是最早被开发者广泛使用的能力，最早用在营销文案创作、概念图创作等领域。只需要提交简单的提示要求，大模型就能生产极具创意的文案或者图像。下图给出了AI生成的极具创意的例子。这种能力目前已经广泛运用于实际生产中了。我们浏览的大量短视频配音和文案，其实都是用这种技术生成的。你是否意识到了呢？

虽然我们观测到大模型表现出上述的三种智能能力，但是作者认为我们不能就此下定论大模型具备和人一样的想象能力、推理能力、创造能力。我们在后文的理论分析部分会逐步揭露这三种智能的本质来源。在第五章末尾，我们会再次回顾大模型的智能涌现。

1.4 大模型智能涌现能力的现实意义

虽然大模型不具备和人类一样的智能，但是基于大模型的目前涌现出来的三种能力，并不妨碍现阶段我们充分使用它们。根据上述三种能力，应用层很容易想到的是如下三种应用。

1.4.1 智能agent，代替人的模型

由于大模型表现出卓越的学习能力和生成能力，因此它完全可以用于代替部分人的模型。人类的很多工作，不需要抽象概念、复杂的推理、决策和创造性，完全只需要记住知识并且运用知识，比如客服、部分视觉设计师、文案写作、健康咨询等职业。这部分工作只需要培训，并记住知识。运用的时候不需要复杂分析和推理决策。只需要运用知识进行回复。他们比较像早期的专家系统或者知识图谱问答系统。这种工作是非常容易被智能agent取代的。并且由于大模型学习能力强，不容易出错，工作表现可能会比人类更优秀。

1.4.2 概念设计

由于大模型表现出一定的创新能力，因此很容易用于概念设计。实际上在游戏领域这项技术已经被广泛使用了。概念设计是指设计需求不十分明确的时候，反复进行探索性设计和具象化表达的阶段。概念设计是生产环节最为重要也是最耗时的环节。大模型的创造性和生成效率能够帮助设计师提升创意水平，并加速生产效率。

1.4.3 超级人机接口和互联网流量入口

生成式大模型最直观的表现是能够进行基于自然语言的意图理解，并能够用自然语言给出答案。那么这会不会带来人机接口的突破性进展呢。本文作者认为答案几乎已经非常明确了。并且围绕这种新的人机交互接口，会不会改变现在互联网的平台入口呢。互联网已经从最早的门户网站，演变到搜索引擎，然后发展到最近火爆的推荐系统。大模型是否能够带来新的互联网信息入口的改变呢？如果能做到，那将是互联网产业的又一次洗牌。目前几乎所有的传统互联网大厂都在争夺这个入口，也不乏明星创业公司参与其中。这些风险投资看到的是这种不确定性一旦确定，谁把握住入口，谁就把握住生态。