2024年,国内AI大模型发展报告!

随着AI技术发展,大模型成为科技竞争新高地、产业新赛道、经济新引擎,我国视其为国家战略,出台政策扶持。大模型广泛应用,推动科技革命与产业变革,面临发展挑战需各界努力。

2023年大模型爆发,变革生产生活,国产大模型崛起。大模型与传统行业融合,提升产业效率;赋能金融、医疗等,助力新质生产力发展。大模型需政策法规保障,促进健康发展,服务各行业,注入发展新动能。

2024年,多重因素推动大模型发展,政府支持、用户需求增长、科技投入增加。面临算力分散、结构最优疑问、数据稀缺等挑战。趋势上,基础模型训练公司或减少,更多公司寻找应用场景。v

第一章:中国AI大模型产业发展背景

1.1 政策驱动力

我国重视AI发展,发布多项政策,如《新一代人工智能发展规划》。地方政府出台政策,加快大模型发展。北京推动技术创新,上海打造国际竞争力大模型,深圳支持开源通用大模型,安徽吸引企业入驻,成都重点研发行业大模型,杭州支持头部企业关键技术攻关。

2023 年以来我国各地出台的大模型产业相关政策

1.2 AI大模型产业发展技术驱动力

近年来,AI大模型快速发展,由语言大模型引领。语言大模型经海量无标注数据预训练,获得多任务通用求解能力。

2017年,Google推出Transformer架构,奠定大模型预训练基础。2018年,GPT-1与BERT发布,预训练大模型成主流。

2022年,ChatGPT展现强大自然语言交互与生成能力。2023年,GPT-4发布,具备多模态理解与内容生成能力。2024年,Sora提出时空碎片和扩散Transformer技术,多模态生成能力成熟。

本部分从Transformer架构出发,梳理基于人类反馈强化学习、指令微调、提示学习等技术,体现技术对产业发展的带动作用。

1.2.1 Transformer 架构

Transformer 架构是目前语言大模型采用的主流架构,于 2017 年由 Google提出,其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递,Transformer 架构的优势在于特征提取能力和并行计算效率。

Transformer 架构主要由输入部分、多层编码器、多层解码器以及输出部分组成。其中,输入部分包括源文本嵌入层、位置编码器;编码器部分由 N 个编码器层堆叠而成;解码器部分由 N 个解码器层堆叠而成;输出部分包括线性层和Softmax 层。

Transformer 架构图

自注意力机制作为 Transformer 模型的核心组件,其允许模型在处理序列数据时,对每个词位置的输入进行加权求和,得到一个全局的上下文表示。

在计算自注意力时,模型首先将输入序列进行线性变换,得到 Q(查询)、K(键)和 V(值)三个向量。

然后,通过计算 Q 和 K 的点积,并应用 Softmax 函数,得到每个位置的权重。最后,将权重与 V 向量相乘,得到自注意力的输出。

为提高模型的表达能力,Transformer模型采用了多头自注意力机制,这意味着模型在同一时间关注来自不同表示子空间的注意力信息。多头自注意力的实现方法是将输入序列分成多个组,每个组使用一个独立的权重矩阵进行线性变换,并计算自注意力。最终,自注意力的输出被拼接起来,并通过一个线性层得到最终的输出表示。

在计算自注意力和多头自注意力之后,Transformer 模型使用前馈神经网络对输入序列进行变换。前馈神经网络由多个全连接层组成,每个全连接层都使用 ReLU激活函数。前馈神经网络的作用是对输入序列进行非线性变换,以捕捉更复杂的特征。

1.2.2 AI 语言大模型关键技术

AI 语言大模型关键技术主要涉及基于人类反馈强化学习、指令微调、模型提示等相关技术。

(1) 基于人类反馈强化学习

基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。

基于人类反馈强化学习具体包括以下几个步骤:

**1)训练监督策略模型:**使用监督学习或无监督学习的方法,对一个预训练的语言模型进行训练,通过给予特定奖励或惩罚引导 AI 模型的行为,使其能够根据给定的输入预测输出或行为。

**2)训练奖励模型:**让标记员参与提供有关模型输出结果的反馈,对模型生成的多个输出或行为的质量或正确性进行排名或评分,这些反馈被转换为奖励信号,用于后续的强化学习过程。

**3)采用近端策略优化进行强化学习:**先通过监督学习策略生成近端策略优化(PPO)模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代 PPO模型参数。具体而言,在 PPO 模型训练过程中,智能系统通过尝试不同的行为,并根据每个行为获得的奖励来评估其质量,智能系统逐步改进行为策略。

基于人类反馈强化学习示意图

(2)指令微调

指令微调 (Instruction Tuning) 是帮助语言大模型遵循人类指令,泛化至未知任务的学习方法。其特殊性在于使用(指令,输出)对的数据集进行训练,以增强LLMs的能力和可控性。指令微调可视作有监督微调的一种变体,但更侧重于让模型理解和遵循人类指令。

(3)模型提示

模型提示技术利用语言大模型的潜在能力,通过设计合适的语言指令提示来激发特定任务的能力。典型技术包括指令提示和思维链提示。指令提示提供额外上下文,重组任务以贴近预训练场景;思维链提示则激发多步推理能力,形成〈输入,思维链,输出〉结构,提高模型可解释性。

1.3 中国AI大模型产业发展市场驱动力

中国AI大模型产业发展受多领域需求驱动,如办公、制造、金融等,旨在降本增效、提高效率和降低风险。这些领域的创新推动AI大模型产业蓬勃发展,预示广阔市场前景。

1.3.1 办公场景

大模型结合传统软件,满足文案生成、PPT美化等需求,通过自然语言交互实现智能化办公。智能文档、演示、表格等工具,极大提高办公效率。智能会议则在策划、翻译、记录等环节提供支持,优化会议流程。

1.3.2 制造场景

AI引领制造行业变革,大模型结合EDA/CAE/CAD等工具提升研发设计效率,助力数字孪生和机器人,强化感知和执行任务能力。

第二章 百舸争流:中国 AI 大模型产业现状及典型案例

2.1 AI 大模型主要特征

AI 大模型具有泛化性(知识迁移到新领域)、通用性(不局限于特定领域)以及涌现性(产生预料之外的新能力)特征。

以 ChatGPT 为代表的 AI 大模型因其具有巨量参数和深度网络结构,能学习并理解更多的特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。

AI 大模型的三大特征:泛化性、通用性、涌现性

2.2 AI 大模型主要类型

**按照部署方式划分,AI 大模型主要分为云侧大模型和端侧大模型两类。**云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;端侧大模型通常部署在手机、PC 等终端上,具有参数规模小、本地化运行、隐私保护强等特点。

具体而言,云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC 大模型。从云侧大模型来看,通用大模型具有适用性广泛的特征,其训练数据涵盖多个领域,能够处理各种类型的任务,普适性较强。

行业大模型具有专业性强的特点,针对特定行业(如金融、医疗、政务等)的需求进行模型训练,因而对特定领域具有更深的业务理解和场景应用能力。从端侧大模型来看,手机和 PC 大模型由于直接部署在设备终端,让用户体验到更加个性化和便捷的智能体验。

AI 大模型主要分为云侧大模型和端侧大模型两类

当前,我国 AI 大模型产业呈现蓬勃发展的态势。伴随多家科技厂商推出的AI 大模型落地商用,各类通用、行业以及端侧大模型已在多个领域取得了显著的成果,如在金融、医疗、政务等领域,AI 大模型已成为提升服务质量和效率的重要手段。

中国 AI 大模型分类及典型案例

2.3 中国 AI 通用大模型典型案例

案例一:科大讯飞—讯飞星火认知大模型

(1)大模型简介:

讯飞星火是科大讯飞推出的新一代认知大模型,通过自然对话理解用户需求并执行任务。它主要从人机交互、知识学习与内容创作、提升数智化生产力三方面展现能力。具备文本生成、语言理解、知识问答等七大核心能力。

(2)大模型优势:

2024年1月,讯飞星火V3.5发布,七大能力全面提升。科大讯飞称,其数学、语言理解能力超GPT-4 Turbo,代码能力达GPT-4 Turbo的96%,多模态理解达GPT-4V的91%,其中语音多模态能力已超过GPT-4。

讯飞星火认知大模型V3.5提升三大能力:人机交互更智能,知识学习与内容创作更丰富,数智化生产力显著增强。人机交互上,V3.5在语义理解、指令跟随、情绪感知及拟人合成方面均有优异表现。知识学习与内容创作上,通过要素抽取、问题生成等底层能力提升,丰富智能体应用。数智化生产力方面,模型在逻辑推理、时空推理、数学能力、代码能力及多模态能力上均有显著进步。

大模型应用方面,七大能力升级赋能多场景:情感分析、文本摘要提升语言理解能力;讯飞智文实现文档、PPT一键生成;知识问答覆盖生活、医学、政策等领域;逻辑推理包括思维推理和科学推理;数学能力解决多种数学问题;代码能力支持智能代码生成、错误定位及测试数据生成;多模态能力实现图片描述、问答及音视频生成。

案例二:百度公司—文心一言大模型

(1)简介:文心一言是百度的人工智能大语言模型,具备跨模态、跨语言能力,服务文学创作、文案创作、搜索问答等领域。具备理解、生成、逻辑、记忆四大能力。

(2)优势:文心大模型4.0在四大能力上显著升级,理解、记忆提升显著。能处理复杂提示词、生成多样内容、解决逻辑难题、记住对话重点。能力提升源于算力优化、数据体系建设、多阶段对齐和可再生训练技术。

(3)应用:文心大模型已应用于文学创作、文案创作、搜索问答、多模态生成、数理逻辑推算等领域,提供高质量服务。

案例三:阿里巴巴—通义千问大模型

(1)简介:通义千问是阿里云研发的预训练语言模型,基于NLP技术,提供创意文案、办公助理、学习助手等交互体验。具备中英文理解、数学推理、代码理解等能力。

(2)优势:通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上显著提升。中英文理解能力出色,数学推理能力在GSM8K测试中表现优异。

第三章 中国AI大模型产业的挑战

3.1 算力瓶颈制约大模型发展

AI大模型训练依赖高性能芯片,算力直接影响模型训练速度和质量。GPT等大语言模型对算力要求更高。英伟达A100、H100是主流,但国内GPU资源有限且性能不足。受管制影响,替代品A800也缺货溢价。国产AI芯片虽在崛起,但与顶尖水平仍有差距,算力不足制约大模型发展。

3.2 Transformer架构局限明显

Transformer架构消耗大量算力和内存,计算量随上下文长度平方级增长,存储需求大。如1000亿参数模型需400GB空间。

3.3 训练数据集需扩展

国内AI大模型数据主要来自互联网,数据类型不全、可信度低。中文数据库体量小,缺乏多数据源调用,数据碎片化。政府及企业数据不公开,影响模型训练。需构建高质量数据集,扩充数据源。

3.4 爆款应用尚未出现

ChatGPT等应用虽受欢迎,但国内尚未出现类似爆款。GPT4.0新增语音功能,GPT商店上线,应用多样,但国内应用发展仍需努力。

第四章 中国AI大模型产业趋势展望

4.1 AI云侧与端侧大模型满足需求,C端用户主导端侧市场

我国云侧大模型繁荣,如百度文心一言、阿里通义千问等,依托强大算力和数据库,提供语言理解、问答、推理、代码生成等能力。云侧模型服务C端(智能问答、生成)和B端(营销、客服等),而端侧大模型因成本低、便携、数据安全,主导C端市场,如手机文档搜索、图像创作等。端侧化降低云端成本,保障隐私,预示端侧化趋势。瑞银预测生成式AI智能手机出货量激增,端侧模型前景广阔。

4.2 AI大模型通用化与专用化并行,垂直行业成关键

通用大模型参数庞大,泛化力强,擅长多任务学习,支持多模态理解生成。行业大模型聚焦金融、政务、医疗等领域,处理特定任务,如信用评估、政务问答等,具备专业性和高数据安全性。行业大模型集中资源于特定领域,降低成本,结合内部数据提升经营效率。

4.3 AI大模型广泛开源,小型开发者受益

未来大模型开源将降低门槛,提高算法透明度。开源进展包括GLM-130B、Baichuan-7B等模型。开源促进AI产业创新,小型开发者可调用大模型提升开发效率,实现应用快速落地,无需复杂训练和调参。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值