国内外AI大模型发展概况

最新推荐文章于 2024-08-30 10:05:54 发布

少喝冰美式

最新推荐文章于 2024-08-30 10:05:54 发布

阅读量1.1k

点赞数 26

文章标签：人工智能 ai chatgpt 语言模型大模型

本文链接：https://blog.csdn.net/python12222_/article/details/139411158

版权

2022年11月30日OpenAI发布ChatGPT，随即引爆社交网络，大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精进，开源模型打造庞大应用生态，端侧模型小而美。国内大模型也进入加速成长期，在过去一年中取得了实质性突破。百度文心一言、讯飞星火、清华智谱ChatGLM4、商汤“日日新SenseNova5.0”整体表现逼近GPT-4，开源模型快速进步，文生视频、文生音乐等多模态也取得突破。国内大模型网页流量和应用下载量节节攀升，大模型已经成为日常生活中的重要助手。**

国外大模型持续领跑，闭源、开源、端侧模型异彩纷呈。

国外大模型主要分为三个层级：性能强劲的闭源模型，具备生态优势的开源模型，以及专注端侧应用的轻量模型。国外基础模型能力持续提升，闭源模型中巨头各显其才。GPT-4性能卓越，始终处于领跑地位， GPT-4o模型实现端到端信息处理，人机交互体验大幅提升；Claude 3后起之秀，整体性能十分强劲；原生多模态大模型Gemini，多模态能力、跨模态能力取得突破。开源模型领域中，LLama2模型塑造了庞大的开源模型家族，LLama3能力大幅提升；Mixtral 8x7B为开源领域引入专家混合技术，成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡，Phi-3、Gemma2实现轻量级模型的小而美。国外闭源模型有望迎来突破，我们预期GPT-5或于近期发布，性能改进超预期。

国内大模型进入性能提升的关键时期，模型应用逐步铺开。2022年11月30日OpenAI发布ChatGPT，随即引爆社交网络。国内大模型也进入加速成长期，在过去一年中取得了实质性突破。国内第一梯队的大模型整体能力目前已经逼近GPT-4，部分模型中文能力与GPT-4相差无几。百度文心大模型4.0整体性能优异，成为首个国内面向C端收费的大模型产品；科大讯飞星火大模型V3.5性能逼近GPT-4，6月27日模型即将再度更新；清华智谱ChatGLM4基础模型性能强劲，大模型生态全面对标OpenAI；商汤“日日新SenseNova5.0”大模型，其主流客观评测指标达到或超越GPT-4 Turbo。开源模型阵营中，存在通义千问、百川智能实力强劲的竞争对手。多模态模型中，国产大模型同样进展不断，国产文生视频大模型Vidu发布，对标Sora持续迭代；昆仑万维发布文生音乐大模型天工Skymusic，整体表现不输Suno。国内大模型网页流量和应用下载量节节攀升，安卓应用商店中豆包累计下载1.47亿，讯飞星火累计下载1.06亿，大模型已经成为日常生活中的重要助手。

国内大模型发展情况

2022年11月30日,OpenAI发布ChatGPT，随即引爆社交网络。国内大模型也进入加速成长期，在过去一年中取得了实质性的突破。国内大模型的发展大致可以分为三个阶段，即准备期（2022.12-2023.02）、成长期（2023.02-2023.23）、爆发期（2023.12-）。

国内大模型分布情况

国内大模型快速逼近GPT-4

国内第一梯队的大模型整体能力目前已经逼近GPT-4，部分模型中文能力与GPT-4相差无几。5-6月，国内多家大模型将迎来版本更新，今年年中是国内大模型的关键赛点，预期我们将见到部分头部大模型整体能力上超越GPT-4。

国内大模型能力测试

客观评价大模型能力存在一定的难度，不同的模型测试可能考察了模型不同维度的能力，因而模型之间的性能比较在不同测试中可能表现不一致，同时大模型的每次响应同样存在不确定性，增加了大模型的测试难度。

结合不同机构的第三方测试，我们大致可以知晓模型之间的性能差异。GPT-4展现出强大的语言理解、生成和推理能力，在各类测试中均保持领先地位。各类评测中模型表现可能略有不同，但是国内第一梯队的大模型整体能力目前已经快速逼近GPT-4。国内大模型发展迅速，与GPT-4差距快速缩小，第一梯队的头部大模型例如ChatGLM4、百度文心一言4.0、讯飞星火V3.5整体表现已经接近GPT-4，在中文领域，国内部分模型表现已经可以比肩GPT-4。

百度文心一言4.0

11月1日，百度正式上线文心一言专业版，技术持续升级。**文心一言大模型专业版基于公司最新自研的文心大模型4.0，与原有的3.5版本相比，具有以下优势：1）更强的模型能力和图片生成能力。根据测试，文心大模型4.0版本在理解、生成、逻辑、记忆四大功能上都有明显提升，具有显著优化的模型性能。2)支持接入丰富的API插件，可以实现撰写代码、润色文案、设计与绘图等多种功能。

文心一言成为首个国内面向C端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费模式。单独订阅模式下，会员月付59.9元，选择连续包月可以享受49.9元的优惠价格；该模式下会员可以使用文心一言大模型3.5和 4.0两个版本，而非会员只可使用免费的文心大模型3.5版本。联合模式下，用户月付99元，可以同时具有单独订阅模式的全部功能，并获得文心一格白银会员资格，享受AI修图改图等功能。

在这里插入图片描述

科大讯飞星火大模型V3.5

1月30日，科大讯飞举行星火认知大模型V3.5升级发布会。讯飞发布基于首个全国产算力训练的讯飞星火V3.5，七大核心能力全面提升，语言理解、数学能力、语音交互能力超过 GPT-4 Turbo，代码达到 GPT-4 Turbo 96%，多模态理解达到 GPT-4V 91%。

4月26日，讯飞星火大模型V3.5春季上新，发布长文本、长图文、长语音大模型。不仅可以快速学习各种来源的海量文本、图文资料、会议录音，还能够针对多种多样的行业场景给出专业、准确回答。此外，星火语音大模型本次更新还包括多情感超拟人合成功能，具备情绪表达能力，并推出一句话声音复刻功能。

讯飞正式启动对标GPT-4的大模型训练，2024年上半年对标GPT-4，要走独立的技术路线和产业方向，形成完整产业生态。

清华智谱ChatGLM4

1月16日，2024年度技术开放日Zhipu DevDay，智谱AI发布了新一代基座大模型GLM-4。**在大规模多任务语言理解评测中， GLM-4的表现明显优于GPT-3.5，其平均得分已经达到了GPT-4的95%水平，在某些特定任务上甚至表现相当；

GLM-4具备强大的多模态能力：文生图和多模态理解能力得到增强，CogView3在文生图多个评测指标上，相比DALLE3约在91.4%-99.3%的水平之间。

GLM-4推出的All Tools能力：GLM-4能自主理解和执行复杂任务，调用浏览器、代码解释器等完成复杂工作。

个性化智能体功能：用户可以通过智谱官网轻松创建属于自己的GLM智能体，实现大模型开发定制。

在这里插入图片描述

商汤日日新SenseNova5.0

4月23日，商汤科技在技术交流日上发布全新升级的“日日新SenseNova5.0”大模型，其主流客观评测指标达到或超越** GPT-4 Turbo。日日新5.0模型能力提升一方面得益于采用混合专家架构（MoE），激活少量参数就能完成推理，且推理时上下文窗口高达200K左右；另一方面来自海量的训练数据，其训练数据超过10TB tokens、覆盖了数千亿量级的逻辑型合成思维链数据。

商汤多模态大模型的图文感知能力达到全球领先水平，在权威综合基准测试MMBench中综合得分居首位，在多个知名多模态榜单MathVista、AI2D、ChartQA、TextVQA、 DocVQA、MMMU均取得优异成绩。

百川智能Baichuan

1月29日，百川智能发布超千亿参数的大语言模型 Baichuan 3。**在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval 中，Baichuan 3都展现了出色的能力，尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval 和MBPP中同样表现出色，证明了 Baichuan 3在自然语言处理和代码生成领域的强大实力。

Baichuan 2是百川智能推出的开源大语言模型，采用2.6万亿Tokens的高质量语料训练。Baichuan 2在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含7B、13B的 Base和Chat版本，并提供了Chat版本的4bits量化。

在这里插入图片描述

通义千问Qwen打造丰富的开源大模型矩阵

通义千问2023年4月问世以来，专注于基础模型的技术研发，从初代模型升级至2.5版本。相比上一版本，2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%，中文能力持续领先。

今年2月初，通义千问团队推出开源模型系列Qwen1.5，随后在不到3个月的时间连续开出8款大语言模型，模型参数规模涵盖5亿、18亿、40亿、70亿、140亿、320亿、720亿、1100亿，打造了丰富的开源模型矩阵。能力最强的Qwen1.5-110B在 MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能，基础能力可与Meta的Llama-3-70B模型相媲美。

字节跳动“豆包”大模型

5月15日，字节跳动正式对外发布豆包大模型，豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型模型等，这些模型已接入抖音、番茄小说、飞书、巨量引擎等50余个业务。

豆包主力模型定价0.0008元/千Tokens，一元钱能买到豆包主力模型的125万Tokens，约200万汉字，极具价格竞争力。

苹果APP Store和各大安卓应用市场，豆包APP的下载量在AIGC类应用中排名第一，豆包上已有超过800万个智能体被创建，月度活跃用户达到2600万。

月之暗面Kimi智能助手上下文长度突破200万字

Moonshot AI提供超长记忆AI助手Kimi。23年10月，月之暗面推出可支持20万字无损上下文长度的智能助手Kimi，具备显著的中文优势，能够为用户提供智能搜索、回答问题、速读文件、整理资料、激发灵感、辅助创作等服务，上下文长度可以达到Claude 100k的2.5倍、GPT-4-32k的8倍。

Kimi智能助手使用方便，新版Kimi与之前版本相比在相同设备和成本的情况下模型响应速度提升了3倍左右。

Kimi推出应用商店Kimi+。首批上线共5大类23个Kimi+，覆盖了很多常用的场景。五大类主要包括官方推荐、办公提效、辅助写作、社交娱乐、生活实用，不同的Kimi+ 可以用来解决不同的问题，包括写提示词、写文章、搜索资源等等。

在这里插入图片描述

Deepseek-V2具备较强的推理成本优势

深度求索Deepseek发布了v2版本的模型，沿袭了Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。Deepseek对模型进行了完全的mit协议开源，可以商用。

Deepseek V2模型参数量达到236B，同时由于模型小专家混合的特性，模型每个token在推理时的激活参数为21B，可以实现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面，相比V1的稠密模型， V2模型节约了42.5%的训练成本，减少了推理时93.3%的 KV-cache 显存占用，将生成的吞吐量也提升到了原来的5.76倍。

Deepseek-V2在众多开源模型中表现仅次于70B 的 LLaMA3，超过了他们此前发布的V1代67B的非MoE模型。

国内多模态模型相关进展

国产文生视频大模型Vidu发布，对标Sora持续迭代

国产文生视频大模型Vidu正式发布，实现重大技术突破。4月27日，国产AI视频大模型Vidu发布。Vidu是由清华大学和生数科技联合开发的中国首个长时长、高一致性、高动态性视频大模型。它不仅能够精确模拟现实世界的物理特性，还具备强大的创新能力。Vidu能够制作出具有多个镜头视角的视频内容，并且在不同镜头之间保持高度的时空连贯性。目前Vidu能够实现一键生成长达16秒、1080P高分辨率的高清视频。

Vidu采用独创U-ViT架构，正在加速迭代。Vidu采用了一种独创的架构——U-ViT，该架构融合了Diffusion技术和 Transformer技术。其核心技术U-ViT架构由团队于2022年9月提出，其Diffusion与Transformer融合的架构完全由团队自主研发。

国产文生音乐大模型天工Skymusic

天工SkyMusic基于昆仑万维天工3.0超级大模型打造，采用了音乐音频领域的类Sora架构，是目前国内唯一公开可用的 AI音乐生成大模型。**天工SkyMusic采用音乐音频领域类Sora模型架构，Large-scale Transformer负责谱曲，来学习 Music Patches的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer负责演唱，通过LDM让Music Patches 被还原成高质量音频，使得天工SkyMusic能够支持生成80秒44100Hz采样率双声道立体声歌曲。

天工SkyMusic具备高质量AI音乐生成、人声“以假乱真”、歌词段落控制、多种音乐风格、歌唱技巧学习等特点。目前 Skymusic已经开启公测，所有用户可以免费使用。

报告原文节选如下：

在这里插入图片描述

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

少喝冰美式

关注

26
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫