AI大模型行业报告:大模型发展迈入爆发期,开启AI新纪元报告

技术:大模型发展呈现“规模定律”,Transformer为技术基座

1.1 大模型“大力出奇迹”的背后:Scaling Law

大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。
与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复杂任务求解能力。

大模型“大力出奇迹”的背后:Scaling Law

大模型发展普遍呈现“规模定律”(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如OpenAI的GPT-1到GPT-3,参数量从1.1亿大幅提升至1746亿,GPT-4非官方估计达到万亿参数(根据Semianalysis消息,GPT-4包含1.8万亿参数),实现性能的突破。根据Google论文,这种大模型具有但小模型不具有的能力通常被称为“涌现能力”(Emergent Abilities)。

1.2 Transformer是LLM基座,核心优势在于Self-attention机制

当前主流大模型普遍是基于Transformer模型进行设计的。Transformer模型在Google团队2017年论文《Attention Is All You Need》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。

相较于RNN,Transformer具有两个显著的优势。1)处理长序列数据:RNN受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。2)实现并行化计算:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而Transformer则可以一次性处理整个序列,大大提高了计算效率。

Transformer组件:Encoder重理解,Decoder重生成

Transformer由两类组件构成:Encoder(编码器)和Decoder(解码器)。通常,Encoder结构擅长从文本中提取信息以执行分类、回归等任务,而Decoder结构则专用于生成文本。

实际上,两类组件可以独立使用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。

1.3 GPT系列模型技术发展历程回顾

从技术角度来看,结合中国人民大学《大语言模型》的观点,GPT在众多大模型角逐中能够取得瞩目,有以下几点值得注意——1)可拓展的训练架构与学习范式:当谷歌2017年推出基于注意力机制的Transformer模型后,OpenAI团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性,最终将Transformer拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为通用学习范式。

2)对于数据质量与数据规模的重视:高质量数据、超大规模数据成为GPT成功的关键基础,比如,OpenAI将人类生成的对话数据和高质量的标注数据用于训练ChatGPT,使得ChatGPT在与人机对话测试中展现出了优秀能力。

然而,我们认为GPT的成功并不是全部源自技术性因素,Transformer、RLHF算法等等关键技术都并非OpenAI首创,并且也在被其他研究团队广泛使用,我们认为OpenAI能够从早期众多的技术路线中识别到并且坚定地去执行这条路线,这来自OpenAI团队足够的技术前瞻和策略定力。比如,OpenAI在早期GPT-2的论文中,就深入讨论了基于大规模文本预训练的通用任务学习范式;再比如GPT-3将参数规模极限拓展到175B,实际上,OpenAI两篇关于Scaling Law的论文都是在2020年发表的,这说明在前期已经进行了比较充分的实验探索。

1.3 GPT 1~3:采用Transformer架构,参数规模拓展至千亿级

GPT系列模型的技术演变(GPT 1~3):2017年,Google推出Transformer后,OpenAI迅速着手并于2018年推出的第一个GPT模型,全称为Generative Pre-trained Transformer。GPT-1基于生成式、Decoder-only的Transformer架构开发,由于参数规模相对较小,模型尚缺乏通用任务求解能力,GPT-1采用Pre-training(预训练)+Fine-tuning(微调)的两阶段范式,先通过单向Transformer预训练一个通用的模型,然后在特定子任务上进行微调。

GPT-2沿用GPT-1类似架构,并将参数规模扩大至1.5B,并使用大规模网页数据集WebText进行预训练。与GPT-1不同的点在于,GPT-2旨在探索通过扩大模型参数规模来提升模型性能,并且试图使用无监督预训练的语言模型来解决各种下游任务。

OpenAI经过较为充分的实验探索,2020年,GPT-3将模型参数扩展到了175B,较GPT-2提升100余倍,验证了将神经网络扩展到超大规模可以带来大幅的模型性能提升。同时,GPT-3论文正式提出“上下文学习”,建立了以提示学习方法为基础技术路线的任务求解范式。

ChatGPT:一举成为现象级应用,引入RLHF算法改进训练数据

GPT系列模型的技术演变(ChatGPT):在GPT-3的基础上,OpenAI又通过代码训练、人类对齐、工具使用等技术对于模型性能不断升级,推出了GPT-3.5系列模型。2022年11月,ChatGPT正式上线,实现以对话形式解决多种任务,使得用户能够通过网络API体验到语言模型的强大功能。ChatGPT 仅用5天时间注册用户达到100万,约2个月注册用户达到1亿,成为AIGC领域的现象级应用。

OpenAI在官网文章中介绍,ChatGPT主要是沿用了2022年1月推出的InstructGPT。InstructGPT的核心技术是基于人类反馈的强化学习算法,即RLHF算法(Reinforcement Learning from Human Feedback),旨在改进模型与人类对齐的能力。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。

GPT-4系列:能力跃升,增加多模态能力,最新版4o突破性价比

GPT系列模型的技术演变(GPT-4~GPT-4o):继ChatGPT后,OpenAI于2023年3月发布GPT-4,它首次将GPT系列模型的输入由单一文本模态扩展到了图文双模态。GPT-4在解决复杂任务方面的能力显著强于GPT-3.5,在一系列面向人类的考试中都获得了非常优异的结果。

基于GPT-4,OpenAI在2023年9月进一步发布了GPT-4V,重点关注GPT-4视觉能力的安全部署。GPT-4V在多种应用场景中表现出了强大的视觉能力与综合任务解决能力。2023年11月,OpenAI在开发者大会上发布GPT-4 Turbo,引入了一系列技术升级,如:将模型内部知识库更新至2023年4月,将上下文长度提升至128K,价格更便宜,引入若干新的功能(如函数调用、可重复输出等)。

今年5月14日,OpenAI春季发布会,发布了新版旗舰模型GPT-4o。GPT-4o 将文本、音频和视觉集成到一个模型中,提供更快的响应时间、更好的推理能力以及在非英语语言中的更佳表现,不仅在传统文本能力上与GPT-4 Turbo性能相当,还在API方面更快速,价格便宜50%。与GPT-4 Turbo相比,GPT-4o速度提高了2 倍,限制速率提高了5 倍,目前的上下文窗口为128k,模型知识截止日期为2023 年 10 月。

市场:全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo

2.1 海外大模型:通用大模型竞争白热化,闭源LLM三足鼎立

全球大模型竞争中,OpenAI、Anthropic、谷歌三大厂商为第一梯队, OpenAI先发推出GPT-4,在2023年基本稳定在行业龙头地位,而Anthropic凭借Claude、 谷歌凭借Gemini后发,可以看到,2024年以来,三家大模型能力呈现互相追赶态势。

开源大模型厂商中,Meta AI(Llama)、欧洲Mistral AI(Mistral)、 Google(Gemma)等厂商的大模型性能保持前列。

此外,伴随Sora推出以及Pika的出圈,图像、视频生成领域的超预期进展获得极大关注,全球图像生成大模型以Midjourney、Stable Diffusion、OpenAI的DALL·E为代表,视频生成以Runway的Gen、Pika和OpenAI的Sora为代表。

OpenAI:上半年重磅发布Sora,GPT-4o取得性能与实用性双突破

OpenAI发布文生视频大模型Sora,在全球视频大模型领域取得里程碑式进展。今年2月15日,OpenAI在官网正式发布Sora,根据OpenAI官网介绍,Sora可以在保持视觉质量和遵循用户的文本提示的情况下,生成长达1分钟的视频,遥遥领先于以往的视频生成时长。

GPT-4o实现性能与实用性双突破,有望加速大模型应用落地。5月14日,OpenAI在春季发布会上推出GPT-4o,并表示将免费提供给所有用户使用。GPT-4o可接受文本、音频和图像的任意组合作为输入、输出,在英语文本和代码方面的性能可对标GPT-4 Turbo,同时在API 中也更快且便宜50%。根据OpenAI官网信息,在GPT-4o之前,使用语音模式与ChatGPT对话,GPT-3.5/GPT-4的平均延迟分别为2.8/5.4秒。而GPT-4o可以在短至232毫秒的时间内响应音频输入,平均时长为320毫秒,与人类在一次谈话中的响应时间相似。
7月18日,OpenAI正式推出了GPT-4o mini,将取代ChatGPT中的旧模型GPT-3.5 Turbo,向ChatGPT的免费用户、ChatGPT Plus和团队订阅用户开放。OpenAI表示,GPT-4o mini的成本为每百万输入标记(token)15美分和每百万输出标记60美分,比GPT-3.5 Turbo便宜超过60%。

Anthropic:推出Claude 3家族,Claude 3.5 Sonnet性能追赶GPT-4o

Claude 3.5 Sonnet在绝大多数基准评估中都超越了竞品大模型。今年3月4日,Anthropic发布Claude 3系列模型,包含Opus、Sonnet和Haiku,Opus代表Anthropic最高级、最智能的模型,Sonnet代表中等级别的模型,在性能和成本效益之间取得平衡,Haiku代表入门级别或最基础的快速模型,其中,Claude 3 Opu为Claude 3系列模型的最强版本,根据官方资料其性能全面超过了 GPT-4。值得注意的是,Claude 3全系列模型具有与其他领先模型同等的复杂视觉功能,可以处理各种视觉格式,包括照片、图表、图形和技术图表。6月21日,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称为“迄今为止最智能的模型”。据Anthropic介绍,Claude 3.5 Sonnet 在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude 3 Opus,与此同时,运行速度、成本与自家前代Claude 3 Sonnet 相当。

谷歌:全面升级Gemini系列,发布视频生成模型Veo

谷歌大模型全线升级。继2023年12月谷歌推出其规模最大、功能最强的多模态大模型Gemini系列之后,今年2月15日,谷歌发布Gemini 1.5,在版本中首个登场的多模态通用模型Gemini 1.5 Pro,将稳定处理上下文的上限扩大至100万tokens。5月14日,在谷歌IO开发者大会上,谷歌大模型迎来多项升级,基础大模型方面,Gemini 1.5 Pro将上下文窗口长度从之前的100万tokens进一步扩展至200万tokens,谷歌首席执行官Pichai称这是目前市场处理上下文长度规模最大的基础大模型。

多模态大模型方面,谷歌发布了视频生成模型Veo 以及文生图模型Imagen 3,Veo 模型对标Sora,能够根据文字、图片和视频的提示生成长度超过 1 分钟、分辨率最高1080p 的视频;Imagen 3文生图模型是Imagen系列的升级版,从细节拟真度来看对标Midjourney v6。

Meta:推出最强开源大模型Llama3.1,405B模型能力赶超领先模型

今年4月18日,Meta推出强大的开源人工智能模型Llama 3,发布包括8B和70B参数的两个版本,作为Llama2的重大升级。Meta称,目前正在开发的最大模型是400B参数,将在未来几个月内推出,英伟达科学家Jim Fan认为,Llama3 400B将成为一个分水岭,即社区将获得开源重量级的GPT-4模型,它将改变许多研究工作和草根创业公司的计算方式。

7月23日,LIama 3.1正式发布,405B版本在150多个基准测试集上的表现追平或超越现有领先的基础模型,包括 GPT-4、GPT-4o和Claude3.5 Sonnet。除了与闭源模型相比具有显著更好的成本/性能比之外,405B模型的开放性将使其成为微调和蒸馏更小模型的优质选择。此外,Meta也推出了8B和70B模型的升级版本,能力与同等参数下的顶尖模型基本持平,与具有相似参数数量的开闭源模型构成强竞争力。

2.2 国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo

自2022年11月底ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮,国内学术和产业界也在抓紧追赶突破。

SuperCLUE将国内大模型发展大致分为三个阶段,

1)准备期:2022年11月ChatGPT发布后,国内产学研迅速形成大模型共识。

2)成长期:2023年初,国内大模型数量和质量开始逐渐增长。

3)爆发期:2023年底至今,各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势。

国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo

从参与者来看,目前我国AI大模型厂商大致可以分为四类,

1)互联网/科技公司:以百度、阿里、腾讯、字节、快手、华为等为代表。

2)AI公司:以智谱AI、昆仑万维、科大讯飞、商汤科技为代表的专注于AI研发与应用的科技公司。

3)学术、科研机构:包括清华、北大、复旦、中科院等国内一流高校,以及智源研究院、IDEA研究院等科研机构。

4)行业专家品牌:以月之暗面(Moonshot AI)、百川智能、MiniMax等由AI专家创业成立的公司为代表。

国产大模型:迈入爆发期,模型能力追赶GPT-4 Turbo

从模型能力来看,根据SuperCLUE最新的评测结果,以开源Llama-3-70B、Llama-3-8B的模型能力为分界线,国内大模型可以形成三大梯队。

可以看到,国内大模型上半年发展尤为迅速,1)开源模型Qwen2-72B在SuperCLUE基准中表现非常出色,超过众多国内外闭源模型,与Claude-3.5持平,与GPT-4o仅差4分。

2)此外,还有4个国内大模型(深度求索DeepSeek-V2、智谱GLM-4、商汤SenseChat5.0 、OPPO的AndesGPT)超过GPT-4-Turbo-0409。

3)除了互联网大厂和AI公司,专家创业团队如Baichuan4、Kimi、MiniMax-abab6.5均有超过70分的表现,位列国内大模型第一梯队。

4)国内绝大部分闭源模型已超过GPT3.5Turbo-0125。

变现:API同质化、订阅实现难,Agent与MaaS探索破局之路

3.1 大模型商业形态多元,B端变现模式更清晰

我们认为大模型收费模式可以总结为API、订阅、广告、定制化四种。首先,大模型最常见的商业模式基本遵循软件行业的SaaS(Software as a Service),通用大模型通常会采取API模式,根据tokens/调用次数/产出内容量等计价,大模型形成AI产品后,可以采用订阅制,按月/季/年向用户收取使用费。同时,AI产品若具备一定程度的流量价值,能够吸引商家投放广告,从而收取广告费。此外,服务内容可以不限于大模型本身,针对付费能力强的企业客户,部分厂商会提供软硬件一体的定制化解决方案,我们称之为MaaS(Model as a Service)。

从AI产品商业化程度来看,B端变现模式更加清晰,C端大多数产品仍然以免费为主。根据量子位智库,面向B端的AI产品从通用场景到垂直赛道分布较均匀,收入模式以会员订阅和按需付费为主,商业模式较为清晰,虽然(纯B端)市场占比只有31%,但80%以上的产品均能实现营收。C端AI产品以智能助手以及图像生成类的生产力工具为主,虽然用户量大(纯C端占比50%以上),但近50%的产品当前仍未有明确的收入模式,以免费为主。

OpenAI以ChatGPT订阅、API为主要营收来源

纵观海内外的大模型厂商,OpenAI确立了最为经典的大模型商业模式,主要包括ChatGPT订阅、API调用、战略合作三种营收方式。1)ChatGPT订阅:OpenAI向C端提供生产力解放工具ChatGPT,并以付费订阅模式变现,针对ChatGPTPlus会员收取每月20美元的订阅费。

2)API调用:而对于模型使用灵活性要求更高的用户,提供API服务,基于模型的调用量(tokens)或者产出内容量(如图片张数、时长)收费。3)战略合作:此外,公司与微软建立了密切合作关系,To C,OpenAI模型能力嵌入微软的生成式AI工具,如GitHub、Office、Bing等;To B,微软Azure是OpenAI的独家云服务提供商,Azure全球版企业客户可以在平台上直接调用OpenAI 模型。

OpenAI绝大多数收入来自前两项,ChatGPT订阅和API调用。据今年6月The Information的报道,Sam Altman在员工全体会议上表示2024年OpenAI年化收入有望达到34亿美元,其中,OpenAI的大部分收入(约32亿美元)来自其聊天机器人ChatGPT的订阅费以及让软件开发人员通过应用程序编程接口访问其模型的费用。OpenAI 还有望通过Microsoft Azure提供其AI模型的访问权限,从而创造约2亿美元的收入。

全球API定价呈现下降趋势

1)API:是大模型厂商最为普遍的营收模式,但我们也注意到由于大模型性能趋向同质化,全球API价格呈现下降趋势。今年5月,作为行业风向标的OpenAI发布GPT-4o,面向ChatGPT所有付费和免费用户发布,支持免费试用,API价格比GPT-4-turbo降低了50%,输入价格低至5美元/百万tokens;谷歌发布Gemini 1.5 Flash时也将输入价格定为0.35美元/百万tokens。国内来看,5月6日,AI公司深度求索(DeepSeek)率先宣布降价,其发布的第二代MoE大模型DeepSeek-V2定为0.001元/千tokens的输入价格与0.002元/千tokens的输出价格,随后我们看到,智谱 AI、火山引擎、阿里云、百度、科大讯飞、腾讯云等国内主要大模型厂商迅速跟进(详见下列图表)。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员辣条

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值