2024年，国内AI大模型发展报告！

金汤肥牛面.

于 2024-09-16 11:45:00 发布

阅读量489

点赞数 16

文章标签：人工智能产品经理 AIGC 大数据 gpt

本文链接：https://blog.csdn.net/qq_46094651/article/details/142214972

版权

随着AI技术发展，大模型成为科技竞争新高地、产业新赛道、经济新引擎，我国视其为国家战略，出台政策扶持。大模型广泛应用，推动科技革命与产业变革，面临发展挑战需各界努力。

2023年大模型爆发，变革生产生活，国产大模型崛起。大模型与传统行业融合，提升产业效率；赋能金融、医疗等，助力新质生产力发展。大模型需政策法规保障，促进健康发展，服务各行业，注入发展新动能。

2024年，多重因素推动大模型发展，政府支持、用户需求增长、科技投入增加。面临算力分散、结构最优疑问、数据稀缺等挑战。趋势上，基础模型训练公司或减少，更多公司寻找应用场景。v

第一章：中国AI大模型产业发展背景

1.1 政策驱动力

我国重视AI发展，发布多项政策，如《新一代人工智能发展规划》。地方政府出台政策，加快大模型发展。北京推动技术创新，上海打造国际竞争力大模型，深圳支持开源通用大模型，安徽吸引企业入驻，成都重点研发行业大模型，杭州支持头部企业关键技术攻关。

2023 年以来我国各地出台的大模型产业相关政策

1.2 AI大模型产业发展技术驱动力

近年来，AI大模型快速发展，由语言大模型引领。语言大模型经海量无标注数据预训练，获得多任务通用求解能力。

2017年，Google推出Transformer架构，奠定大模型预训练基础。2018年，GPT-1与BERT发布，预训练大模型成主流。

2022年，ChatGPT展现强大自然语言交互与生成能力。2023年，GPT-4发布，具备多模态理解与内容生成能力。2024年，Sora提出时空碎片和扩散Transformer技术，多模态生成能力成熟。

本部分从Transformer架构出发，梳理基于人类反馈强化学习、指令微调、提示学习等技术，体现技术对产业发展的带动作用。

1.2.1 Transformer 架构

Transformer 架构是目前语言大模型采用的主流架构，于 2017 年由 Google提出，其主要思想是通过自注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行传递，Transformer 架构的优势在于特征提取能力和并行计算效率。

Transformer 架构主要由输入部分、多层编码器、多层解码器以及输出部分组成。其中，输入部分包括源文本嵌入层、位置编码器；编码器部分由 N 个编码器层堆叠而成；解码器部分由 N 个解码器层堆叠而成；输出部分包括线性层和Softmax 层。

Transformer 架构图

自注意力机制作为 Transformer 模型的核心组件，其允许模型在处理序列数据时，对每个词位置的输入进行加权求和，得到一个全局的上下文表示。

在计算自注意力时，模型首先将输入序列进行线性变换，得到 Q（查询）、K（键）和 V（值）三个向量。

然后，通过计算 Q 和 K 的点积，并应用 Softmax 函数，得到每个位置的权重。最后，将权重与 V 向量相乘，得到自注意力的输出。

为提高模型的表达能力，Transformer模型采用了多头自注意力机制，这意味着模型在同一时间关注来自不同表示子空间的注意力信息。多头自注意力的实现方法是将输入序列分成多个组，每个组使用一个独立的权重矩阵进行线性变换，并计算自注意力。最终，自注意力的输出被拼接起来，并通过一个线性层得到最终的输出表示。

在计算自注意力和多头自注意力之后，Transformer 模型使用前馈神经网络对输入序列进行变换。前馈神经网络由多个全连接层组成，每个全连接层都使用 ReLU激活函数。前馈神经网络的作用是对输入序列进行非线性变换，以捕捉更复杂的特征。

1.2.2 AI 语言大模型关键技术

AI 语言大模型关键技术主要涉及基于人类反馈强化学习、指令微调、模型提示等相关技术。

（1）基于人类反馈强化学习

基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)，是指将人类标注者引入到大模型的学习过程中，训练与人类偏好对齐的奖励模型，进而有效指导语言大模型的训练，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容。

基于人类反馈强化学习具体包括以下几个步骤：

**1）训练监督策略模型：**使用监督学习或无监督学习的方法，对一个预训练的语言模型进行训练，通过给予特定奖励或惩罚引导 AI 模型的行为，使其能够根据给定的输入预测输出或行为。

**2）训练奖励模型：**让标记员参与提供有关模型输出结果的反馈，对模型生成的多个输出或行为的质量或正确性进行排名或评分，这些反馈被转换为奖励信号，用于后续的强化学习过程。

**3）采用近端策略优化进行强化学习：**先通过监督学习策略生成近端策略优化（PPO）模型，经过奖励机制反馈最优结果后，再将结果用于优化和迭代 PPO模型参数。具体而言，在 PPO 模型训练过程中，智能系统通过尝试不同的行为，并根据每个行为获得的奖励来评估其质量，智能系统逐步改进行为策略。

基于人类反馈强化学习示意图

（2）指令微调

指令微调 (Instruction Tuning) 是帮助语言大模型遵循人类指令，泛化至未知任务的学习方法。其特殊性在于使用（指令，输出）对的数据集进行训练，以增强LLMs的能力和可控性。指令微调可视作有监督微调的一种变体，但更侧重于让模型理解和遵循人类指令。

（3）模型提示

模型提示技术利用语言大模型的潜在能力，通过设计合适的语言指令提示来激发特定任务的能力。典型技术包括指令提示和思维链提示。指令提示提供额外上下文，重组任务以贴近预训练场景；思维链提示则激发多步推理能力，形成〈输入，思维链，输出〉结构，提高模型可解释性。

1.3 中国AI大模型产业发展市场驱动力

中国AI大模型产业发展受多领域需求驱动，如办公、制造、金融等，旨在降本增效、提高效率和降低风险。这些领域的创新推动AI大模型产业蓬勃发展，预示广阔市场前景。

1.3.1 办公场景

大模型结合传统软件，满足文案生成、PPT美化等需求，通过自然语言交互实现智能化办公。智能文档、演示、表格等工具，极大提高办公效率。智能会议则在策划、翻译、记录等环节提供支持，优化会议流程。

1.3.2 制造场景

AI引领制造行业变革，大模型结合EDA/CAE/CAD等工具提升研发设计效率，助力数字孪生和机器人，强化感知和执行任务能力。

第二章百舸争流：中国 AI 大模型产业现状及典型案例

2.1 AI 大模型主要特征

AI 大模型具有泛化性(知识迁移到新领域)、通用性(不局限于特定领域)以及涌现性(产生预料之外的新能力)特征。

以 ChatGPT 为代表的 AI 大模型因其具有巨量参数和深度网络结构,能学习并理解更多的特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。

AI 大模型的三大特征：泛化性、通用性、涌现性

2.2 AI 大模型主要类型

**按照部署方式划分，AI 大模型主要分为云侧大模型和端侧大模型两类。**云侧大模型由于部署在云端，其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点；端侧大模型通常部署在手机、PC 等终端上，具有参数规模小、本地化运行、隐私保护强等特点。

具体而言，云侧大模型分为通用大模型和行业大模型；端侧大模型主要有手机大模型、PC 大模型。从云侧大模型来看，通用大模型具有适用性广泛的特征，其训练数据涵盖多个领域，能够处理各种类型的任务，普适性较强。

行业大模型具有专业性强的特点，针对特定行业（如金融、医疗、政务等）的需求进行模型训练，因而对特定领域具有更深的业务理解和场景应用能力。从端侧大模型来看，手机和 PC 大模型由于直接部署在设备终端，让用户体验到更加个性化和便捷的智能体验。

AI 大模型主要分为云侧大模型和端侧大模型两类

当前，我国 AI 大模型产业呈现蓬勃发展的态势。伴随多家科技厂商推出的AI 大模型落地商用，各类通用、行业以及端侧大模型已在多个领域取得了显著的成果，如在金融、医疗、政务等领域，AI 大模型已成为提升服务质量和效率的重要手段。

中国 AI 大模型分类及典型案例

2.3 中国 AI 通用大模型典型案例

案例一：科大讯飞—讯飞星火认知大模型

（1）大模型简介：

讯飞星火是科大讯飞推出的新一代认知大模型，通过自然对话理解用户需求并执行任务。它主要从人机交互、知识学习与内容创作、提升数智化生产力三方面展现能力。具备文本生成、语言理解、知识问答等七大核心能力。

（2）大模型优势：

2024年1月，讯飞星火V3.5发布，七大能力全面提升。科大讯飞称，其数学、语言理解能力超GPT-4 Turbo，代码能力达GPT-4 Turbo的96%，多模态理解达GPT-4V的91%，其中语音多模态能力已超过GPT-4。

讯飞星火认知大模型V3.5提升三大能力：人机交互更智能，知识学习与内容创作更丰富，数智化生产力显著增强。人机交互上，V3.5在语义理解、指令跟随、情绪感知及拟人合成方面均有优异表现。知识学习与内容创作上，通过要素抽取、问题生成等底层能力提升，丰富智能体应用。数智化生产力方面，模型在逻辑推理、时空推理、数学能力、代码能力及多模态能力上均有显著进步。

大模型应用方面，七大能力升级赋能多场景：情感分析、文本摘要提升语言理解能力；讯飞智文实现文档、PPT一键生成；知识问答覆盖生活、医学、政策等领域；逻辑推理包括思维推理和科学推理；数学能力解决多种数学问题；代码能力支持智能代码生成、错误定位及测试数据生成；多模态能力实现图片描述、问答及音视频生成。

案例二：百度公司—文心一言大模型

（1）简介：文心一言是百度的人工智能大语言模型，具备跨模态、跨语言能力，服务文学创作、文案创作、搜索问答等领域。具备理解、生成、逻辑、记忆四大能力。

（2）优势：文心大模型4.0在四大能力上显著升级，理解、记忆提升显著。能处理复杂提示词、生成多样内容、解决逻辑难题、记住对话重点。能力提升源于算力优化、数据体系建设、多阶段对齐和可再生训练技术。

（3）应用：文心大模型已应用于文学创作、文案创作、搜索问答、多模态生成、数理逻辑推算等领域，提供高质量服务。

案例三：阿里巴巴—通义千问大模型

（1）简介：通义千问是阿里云研发的预训练语言模型，基于NLP技术，提供创意文案、办公助理、学习助手等交互体验。具备中英文理解、数学推理、代码理解等能力。

（2）优势：通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上显著提升。中英文理解能力出色，数学推理能力在GSM8K测试中表现优异。

第三章中国AI大模型产业的挑战

3.1 算力瓶颈制约大模型发展

AI大模型训练依赖高性能芯片，算力直接影响模型训练速度和质量。GPT等大语言模型对算力要求更高。英伟达A100、H100是主流，但国内GPU资源有限且性能不足。受管制影响，替代品A800也缺货溢价。国产AI芯片虽在崛起，但与顶尖水平仍有差距，算力不足制约大模型发展。

3.2 Transformer架构局限明显

Transformer架构消耗大量算力和内存，计算量随上下文长度平方级增长，存储需求大。如1000亿参数模型需400GB空间。

3.3 训练数据集需扩展

国内AI大模型数据主要来自互联网，数据类型不全、可信度低。中文数据库体量小，缺乏多数据源调用，数据碎片化。政府及企业数据不公开，影响模型训练。需构建高质量数据集，扩充数据源。

3.4 爆款应用尚未出现

ChatGPT等应用虽受欢迎，但国内尚未出现类似爆款。GPT4.0新增语音功能，GPT商店上线，应用多样，但国内应用发展仍需努力。

第四章中国AI大模型产业趋势展望

4.1 AI云侧与端侧大模型满足需求，C端用户主导端侧市场

我国云侧大模型繁荣，如百度文心一言、阿里通义千问等，依托强大算力和数据库，提供语言理解、问答、推理、代码生成等能力。云侧模型服务C端（智能问答、生成）和B端（营销、客服等），而端侧大模型因成本低、便携、数据安全，主导C端市场，如手机文档搜索、图像创作等。端侧化降低云端成本，保障隐私，预示端侧化趋势。瑞银预测生成式AI智能手机出货量激增，端侧模型前景广阔。

4.2 AI大模型通用化与专用化并行，垂直行业成关键

通用大模型参数庞大，泛化力强，擅长多任务学习，支持多模态理解生成。行业大模型聚焦金融、政务、医疗等领域，处理特定任务，如信用评估、政务问答等，具备专业性和高数据安全性。行业大模型集中资源于特定领域，降低成本，结合内部数据提升经营效率。

4.3 AI大模型广泛开源，小型开发者受益

未来大模型开源将降低门槛，提高算法透明度。开源进展包括GLM-130B、Baichuan-7B等模型。开源促进AI产业创新，小型开发者可调用大模型提升开发效率，实现应用快速落地，无需复杂训练和调参。