开源VS闭源：国产大模型的路线之争与商业化挑战_大模型开源自研还是采购商业产品-CSDN博客

本文链接：https://blog.csdn.net/2401_85375298/article/details/140700019

在这里插入图片描述
当地时间7月23日，Meta正式发布LLAMA 3.1开源人工智能模型。根据Meta提供的基准测试数据，最受关注的405B（4050亿参数），从性能上已经可媲美GPT-4和Claude 3.5，标志着开源大模型的发展再进一程。

有关大模型开源闭源的路线之争向来是热点话题。讨论日渐激烈化的同时，国内大模型商业化应用正加速落地，开源与闭源间的技术差距也在缩小。

近日，信息咨询公司六度智囊接到需求，多名客户希望就国产大模型发展趋势对不同专家进行访谈，从而对行业动向有更深入把握。六度智囊是一家商业信息检索平台，为客户提供优质且领先的研究决策支持和专家知识共享服务。目前已实现海外专家50K+，业务覆盖北美、亚洲、欧洲、东南亚等地区。

根据六度智囊促成的访谈来看，不少专家认为，行业头部大模型商业化路径已较为清晰，根据自身优势而各有侧重。但在商业化应用落地及算力供给方面，国产大模型仍面对一定挑战。
在这里插入图片描述
路线之争

今年7月，2024世界人工智能大会（WAIC 2024）期间，百度CEO李彦宏有关“开源模型是智商税”的言论再度引起关注。

李彦宏认为，同样参数规模下，开源模型的能力不如闭源，“如果开源模型想要在能力上追平闭源模型，就需要更大的参数规模，这将导致更高的推理成本和更慢的反应速度。”

此外，相比源代码公开传统的软件开源，大模型的开源更为复杂。按照李彦宏的说法：“模型开源只能拿到一堆参数，还要在做SFT、安全对齐，即使是拿到对应源代码，也不知道是用了多少比例、什么比例的数据去训练这些参数，无法做到众人拾柴火焰高，拿到这些东西，并不能让你站在巨人的肩膀上迭代开发。”

这并非李彦宏第一次在公开场合发表类似观点，今年4月，李彦宏也曾提出“开源模型会越来越落后”。随后不久，360集团董事长周鸿祎在公开场合发出反对声音称，如果没有开源文化，就不会有Linux、PHP、MySQL等众多重要的技术成果，甚至互联网的发展也会受到极大的限制。

也有部分观点认为开源与闭源并非对立的关系。百川智能CEO王小川表示，开源和闭源并不像手机中的iOS或者安卓系统只能二选一，从tob角度开源闭源都需要。他预计，未来80%的企业会用到开源大模型，因为闭源没办法对产品做更好的适配，或者成本特别高，闭源可以给剩下的20%提供服务。二者不是竞争关系，而是在不同产品中互补的关系。

路线之争的背后往往是商业路线的分歧。大模型开源的动力首先来源于扩大自身影响力及市场份额的需要。此外，吸引更多的开发者参与到开源模型的改进和优化中来，有利于大模型快速迭代与发展，并为企业提供宝贵的生态价值。

华泰证券研报认为，产业化方面，闭源大模型的长期服务能力更强、更可用。大模型与业务结合，需要产品、运营、测试工程师等多种角色共同参与，同时大模型的长期应用所需的算力、存储、网络等配套都要跟上，开源社区无法帮助用户“一站式”解决这些细节问题。

尽管从目前来看，闭源大模型整体能力更强，OpenAI的GPT-4、Anthropic的Claude-3、谷歌的Gemini Ultra都是闭源。但开源阵营的日渐壮大，确实给闭源模型带来了一定冲击。

在这里插入图片描述

2023年5月，来自谷歌一位工程师在内部撰文称，开源大模型迅猛发展，正在侵蚀OpenAI和谷歌的阵地。他在文件中写道，开源模型更快、可定制性更强、更私密，而且功能性也不落下风。“当免费的、不受限制的替代品（开源模型）与闭源模型质量相当时，人们不会为受限制的模型付费。”

华泰证券研报认为，随着以Llama为代表的高性能开源大模型的出现，对于垂直行业应用公司来讲，从头训练大模型的模式的意义正在下降，部分垂直应用公司转而采取开源模型+矢量数据库的形式，解决特定应用场景和问题。总的来说，开源模式将蚕食闭源模式一定的市场份额，两者在未来较长一段时间内或将形成相互摇摆的博弈格局。
目前，在国内大模型厂商中，只有百度、月之暗面等坚持闭源，包括阿里、商汤、百川智能、智谱AI在内的更多的玩家则开源与闭源兼顾。
在这里插入图片描述
商业化加速

尽管围绕大模型开源与闭源的路线争论从未停歇，但行业仍存有一种共识：没有“最后一公里”的应用与商业化落地，开源与闭源都将失去意义。

2024年以来，大模型企业的商业化落地明显加速。在六度智囊促成的一次访谈中，前任阿里巴巴达摩院（北京）科技有限公司商业化高级运营专家表示，目前来看，行业头部大模型商业化路径已较为清晰，根据自身优势而各有侧重。

“例如，智谱AI主要集中在to B（对企业）和to G（对政府）市场，这表明它们更倾向于与企业和政府机构合作。而Kimi则选择了不同的路径，它们走的是to C（对消费者）路线，直接面向普通消费者。通义千问的策略则与阿里云有相似之处，在商业化维度上保持一致。同时，通义千问更倾向于服务大型企业（to大B）和政府机构（to G），而对于消费者市场（to C），则由它们的运营团队在日常业务中顺带处理。”

在这里插入图片描述
在业内人士看来，目前，大模型的B端应用需求相对明确和稳定，包括按照时间段收费、按调用量收费以及各种包含硬件的一站式解决方案。然而，在六度智囊促成的前述访谈中，前任阿里巴巴达摩院（北京）科技有限公司商业化高级运营专家提及：

“评估这些大型模型的商业化落地效果和投资回报率（ROI）是相当困难的，因为它们在不同的应用场景下表现的差异性很大。例如，在政务等特定场景下，这些大型模型的测试效果并不理想。在学习过程中，大模型可能会产生不合规的内容，开发这些模型的公司则需要承担起相应的风险。”

除ROI（投资回报率）、数据的安全和合规性方面的考量，企业在应用AI时往往还面临高昂的算力成本。在六度智囊促成的另一次访谈中，前任国际商业机器（中国）有限公司AI技术总监兼资深顾问表示：“以金融行业的AI外呼为例，若要实现1000路并发，并将每次响应时间控制在200到300毫秒之间，需要使用600900张A100 GPU，成本非常高。在算力的边际成本没有明显降低之前，企业用户仍会保持谨慎态度。”
面向C端商业场景，普通消费者对AI产品的付费意愿上涨，但远未覆盖大模型研发的成本，行业尚在探索更为高效可行的商业模式。
见识科技发布的《AI应用需求与付费意愿调研报告》显示，个人用户对AI应用的付费意愿处在增长中，占调研人数中的30.5%。从实际应用中来看，付费意愿较强的领域基本集中在文案创作、写作等与内容制作和传播相关的办公领域，其中46%的个人用户仅愿意支付千元左右的费用。

作为To C阵营的中坚力量，月之暗面CEO杨植麟曾表示，目前大模型有两种主流商业模式中，订阅是已经被验证过的、成立的商业模式，但按照用户数量收费，无法（随着产品迭代）创造越来越大的价值，不会是最终的商业模式。抽成模式中，广告已在互联网平台得到了验证，但人的注意力和时间有限，这种商业模式的机会也局限。
更长远来看，大模型的商业化进程将是一个渐进性的过程。前任阿里巴巴（中国）网络技术有限公司工程师在六度智囊访谈中表示，“那些业务靠近赚钱能力的公司，比如某些视频平台和手游公司，可能会率先从大模型技术中受益。最后，大模型在不同行业的应用程度将取决于各个行业现金流业务的规模，那些现金流强大的行业可能会更快地采纳并从中获益。”

在这里插入图片描述
算力供给挑战

自生成式AI热潮席卷全球以来，AI算力几乎始终处于短缺状态。且随着大模型参数不断提升，供需紧张的局面大有愈演愈烈之势。

过去两年间，美国多次加码对华芯片出口禁令，又进一步加大了国内厂商的采购难度。2023年10月，美国升级芯片禁令后，A800、H800、消费级产品RTX4090都被纳入了管制范围。2023年底，英伟达针对中国市场推出了三款特供芯片：H20、L20和L2。

据《财经》报道，其中性能最强的H20，被认为是目前欧美公司大模型训练普遍采用的H100阉割版，算力约只有H100的不到15%。国产芯片中，华为芯片目前和英伟达相比，在性能和生态上仍存差距。

在六度智囊促成的一次访谈中，前任国际商业机器（中国）有限公司AI技术总监兼资深顾问表示：

“华为910B在字节跳动、科大讯飞、蚂蚁集团、美图公司、百度和小红书等互联网企业中被广泛应用，主要用于推理任务。这些公司出于实际需求，更倾向于使用910B来处理推理工作负载。目前，真正利用昇腾910B进行大规模训练的用户主要有两类：一类是像科大讯飞这样的企业，他们自建了万卡集群；另一类是一些政府和研究机构，进行小规模训练。

由于华为的生态系统较为封闭，客户需要将自己的大模型算子或参数转换成华为芯片能够识别的代码才能在910B集上运行，这使得客户的迁移成本非常高。由于华为无法为每个客户提供大规模的常驻支持团队，因此只有那些愿意与华为建立深度合作关系的客户才能获得全面的支持。”
在这里插入图片描述
对于国内GPU芯片的整体供给情况，前任阿里巴巴达摩院（北京）科技有限公司商业化高级运营专家在六度智囊访谈时表示：“在美国对中国禁售高算力产品如A100、H800、A800等的情况下，相关中国公司已经采取了一些应对措施，在禁令生效前已经进行了采购储备，以确保他们的运营不会受到立即影响。”

他补充道，在中国市场上，目前的情况是GPU算力总体上是充足的，但算力主要集中在互联网大厂和专门的GPU智算中心，中小型企业在获取这些算力资源时能力较弱。“此外，中小型AI公司对于自身算力需求的缺口很难进行准确估算，这无疑增加了他们在市场上竞争的难度。”

综合专家意见，可以得出以下结论：

行业头部大模型的商业化路径已较为清晰，不同的市场策略选择反映了各公司根据自身优势和市场需求定的不同市场定位和发展方向。

由于商业化落地效果和投资回报率（ROI）存在困难，在算力的边际成本没有明显降低之前，企业用户对大模型应用仍会保持谨慎态度。

总体而言，中国市场GPU算力充足但分配不均，中小型企业在获取这些算力资源时能力较弱。随着市场需求激增，算力供应问题仍是需要关注的挑战。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享]👈

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍