突发,华为首个开源大模型来了

01.华为态度两极反转,从“绝不开源”到主动开放

短短两年,华为对盘古大模型的态度,来了个180 度大转弯。

还记得2023年,华为云开发者大会上,华为常务董事、华为云CEO张平安正式发布盘古3.0大模型时,明确表示盘古大模型不会开源

图源:抖音

做出这一决定,在当时对华为来说并不是任性而为。

彼时,国际科技竞争激烈,“卡脖子”风险高悬头顶。

华为盘古大模型走的是全栈自研路线,从底层芯片到模型算法,每一步都是华为自己研发出来的,没有采用任何开源技术

并且,据张平安介绍,盘古大模型定位是行业赋能,深度应用在矿山、电力等众多领域,涉及大量客户机密数据,开源可能会带来数据泄露的安全隐患。

直到今天,2025年6月30日,华为画风突变,正式宣布开源盘古70亿参数的稠密模型以及盘古Pro MoE 720亿参数的混合专家模型,还一并开源了基于昇腾的模型推理技术

图源:微信

今时不同往日,华为的这一决策背后,是外部环境变化技术成熟度的提升以及对生态建设的深远考量。

此次开源的盘古70亿参数的稠密模型,具有参数量适中性能均衡部署门槛较低的特点。它在智能客服、知识库等多种场景中均可应用,能够为不同行业的企业提供高效、灵活的解决方案。

模型的开源,意味着更多的开发者和企业可以基于它进行二次开发和创新,从而推动人工智能在更多领域的应用落地。

而盘古Pro MoE 720亿参数的混合专家模型,更是“王炸”级别的存在。

它独创MoGE(分组混合专家)架构,通过动态激活专家网络,仅需160亿激活参数,就能媲美千亿级模型的性能。

比如在SuperCLUE 2025年5月的开源模型排行榜上,盘古Pro MoE 72B名列前茅,与阿里的Qwen3-32B(Thinking)一齐成为千亿以下超强性能的国产开源大模型。

图源:SuperCLUE官网

再说说基于昇腾平台的模型推理技术。

据华为方面介绍:“我们以前很少对外发声,盘古也没有开源,所以大家对昇腾算力具体的情况不是特别了解,对模型的情况也不了解,外界就充满了猜疑。甚至认为昇腾训练不出来先进的大模型。

“昇腾算力能够训练出世界一流的大模型,训练高效率,推理高性能,系统高可用。第三方模型迁移到昇腾上可以做到:Day0迁移,一键部署。”

值得注意的是,华为此前曾强调盘古大模型与ChatGPT不在同一轨道

ChatGPT 走的是 Transformer 架构的“暴力美学”路线,更偏向消费级对话场景;而盘古采用Encoder - Decoder架构,在多模态融合和物理推理上优势明显,聚焦工业气象等垂直领域。

就拿气象预测来说,盘古的气象模型预测速度比传统方法快1万倍,还被欧洲中期天气预报中心采用,这是两者的本质区别。

02.华为开源背后的战术考量

其实,今年以来,中国AI 行业掀起了一股开源热潮,多家企业都改变了闭源的思路,其中就包括大家耳熟能详的OpenAI,还有百度

要说是什么让这些大佬纷纷转变态度,DeepSeek的横空出世居功至伟。

秉持着开源理念的DeepSeek用更小的训练成本却带来了性能媲美国内外顶尖模型的DeepSeek-R1,并将推理模型向全球数十亿用户普及,给了以往坚持“闭源才是王道”的企业足够的心灵冲击。

图源:抖音

在这样的背景下,华为此次宣布开源盘古大模型,可以说是顺应潮流,但其背后也有自己的考量。

华为官方表示,开源盘古大模型是践行昇腾生态战略的关键举措,旨在推动大模型技术的研究与创新发展,加速人工智能在千行百业的应用与价值创造。

从华为的角度来看,这一决策确实能为其带来不少潜在好处。

一方面,盘古模型深度依赖昇腾芯片,开源后企业若想更好的落地应用,就需要采购昇腾服务器或云服务,这能大大加速昇腾芯片的规模化渗透,抢占国产算力市场;

图源:开源开发者平台GitGo

另一方面,不同规模的开源模型能吸引不同需求的开发者,例如盘古70亿模型适合高校科研,而Pro MoE模型则更吸引企业开发者。

通过开源吸引更多ISV(独立软件开发商)加入昇腾生态,形成“模型-工具-应用”的正向循环;

再者,开源能够加速人工智能技术的普及和应用。随着盘古大模型的开源,企业和开发者又多了一种以低的成本获取强大AI技术实力的方式,从而推动人工智能在更多行业的应用和落地。

此外,开源还能够提升华为在国际AI领域的影响力和话语权。一举多得,何乐而不为?

03.中国AI百花齐放,百家争鸣

如今的中国AI 领域,可谓是百花齐放、百家争鸣,几家领先的人工智能企业都在各自赛道上发力,不断推陈出新。

阿里通义千问持续升级迭代。先是在5月9日发布通义千问2.5版本,相比之前,理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

前几天又发布了多模态统一理解与生成模型Qwen VLo,支持文本、图像、视频多模态理解与生成,在电商领域,能自动生成商品详情页和营销文案,效率提升300%,妥妥的“全能王”。

图源:微博

字节跳动豆包也是动作频频。6月11日,火山引擎发布豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型,并升级Agent开发平台等AI云原生服务。

而同样在今天,豆包公众号宣布“深入研究”功能在App、网页端、电脑版开启测试,不断拓展应用场景,力争成为场景化的“爆款制造机”。

图源:豆包

百度文心一言同样在今天放出大招,正式开源文心大模型4.5系列10款模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密模型等,并实现了预训练权重推理代码的完全开源。

文心大模型4.5系列在多文本和多模态基准测试中达到了SOTA水平(当前最高水平),尤其在指令遵循世界知识记忆视觉理解和多模态推理任务上表现出色。

图源:微博

当然,华为的盘古大模型的最新成果也并没有停留在上述提到的盘古Pro MoE 72B。

6月20日,盘古大模型迎来了5.5版本的发布,该版本的自然语言处理(NLP)能力比肩国际一流模型,并在多模态世界模型方面做到全国首创。

盘古大模型5.5包含了五大基础模型,分别面向NLP、多模态、预测、科学计算、CV领域,进一步推动了大模型成为行业数智化转型的核心动力。

盘古Ultra MoE、盘古Pro MoE、盘古Embedding等一系列模型的推出,不仅展示了华为在AI领域的深厚技术积累,也为行业提供了更多高效、实用的解决方案。

更为关键的是,盘古Ultra MoE是718B7180亿)参数的MoE深度思考模型。也就是说,华为甚至还小藏了一手,估计后续会有更重磅的开源。

所以DeepSeek呢?上面提到这么多优秀企业的发展进度,DeepSeek怎么样了?

随着2025年已经过去了一半,AI行业的蓬勃发展让人们对DeepSeek R2的期待愈发强烈。DeepSeek的上一次更新,还停留在上个月。

5月底,DeepSeek R1迎来重磅更新,这次更新增强了模型的思维深度和推理能力,提升了响应速度和对话稳定性,减少了“遗忘设定”或“跑题”的情况。详情可以关注我们的《》这篇文章。

而据多方消息透露,DeepSeek-R2的训练成本有望降至0.07美元/百万token推理速度还能比R1快上2倍,并支持代码、数学、法律等专业领域深度推理。

一旦发布,必将再次震撼整个行业。

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。 

 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

 

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值