大语言模型之十八-商业思考

shichaog

已于 2023-10-30 19:54:52 修改

阅读量1.1k

点赞数 2

分类专栏：神经网络&人工智能文章标签：语言模型人工智能自然语言处理

于 2023-10-17 22:28:34 首次发布

本文链接：https://blog.csdn.net/shichaog/article/details/133858055

版权

神经网络&人工智能专栏收录该内容

22 篇文章 23 订阅

订阅专栏

大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用，一些策略是将大语言模型集成到公司的现有产品，比如微软的Office接入ChatGPT。

当前大语言模型盈利情况堪忧，今年 5 月有媒体曝出因去年开发出 ChatGPT，OpenAI 亏损 5.4 亿美元，微软在 GitHub Copilot拥有 150 万用户的基础上，每月仍倒贴每位用户 20 美元。

前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术，其核心思想是降低中小公司的技术门槛和使用成本。

本质上，大语言模型是利用现有资源, 快速地将数据转化为企业生产力，数据是是第一出发点，如何提炼和使用公司数据，是应用和商业化不得不考虑的点。

基座模型训练成本

训练一个基座模型的成本最包括计算资源、数据、研发人员，总的来说从数据采集清洗，到模型开发训练、模型管理，再到云端及离线推理服务管理等AI开发过程的全生命周期都涉及相关费用，此外还有法务、安全等

OpenAI的ChatGPT模型使用了微软算力平台，微软的基础算力平台使用了数以千计的英伟达GPU，使用基于英伟达量子 InfiniBand 通信网络连接在一起，用于高性能计算，据彭博社报道，微软在该ChatGPT项目上已经花费了数亿美元。

国盛证券曾经估算，GPT-3训练一次的成本约为140万美元，对于一些更大的LLM模型，训练成本介于200万美元至1200万美元之间。

当训练一个 65B 参数的开源大语言模型Llama模型时，在 2048 A100 GPU 和 80GB 的内存上处理大约 380 个 token /秒/GPU，这意味着在1.4T 标记的数据集上进行训练大约需要 21 天。2048 个 GPU * 21*24 * 1$ ~ 100w刀，这还是确定数据集和参数后一次的训练成本。

数据成本
国外诸多问答社区、社交平台纷纷加入数据收费的队伍中，如 Reddit 对每 5000 万次 API 请求收费 1.2 万美元；Twitter 推出最便宜的套餐是每月需支付 4.2 万美元，用户可以访问 5000 万条推文；

大语言模型公司

除了互联网巨头，国内外有很多的大语言模型公司，互联公司利用自身的算力、人才、数据和成熟业务优势，能够很快训练出自己的基座模型，并且在基座模型的基础上针对自身业务微调成垂类模型在业务上使用。

互联网巨头公司竞争第一咖位是生态，其次才是结合自身业务垂类应用，Meta以开源的方式吸引大批开发者，建立生态系统，不仅能让Llama2实现快速迭代，还能帮助Meta借此机会建立自己的技术壁垒，在目前的模型之争中抢占优势，构建类似Android一样的开放系统，微软的DeepSpeed、谷歌的BERT等都是以开源构建生态为目标，国内受制于人才和整个AI工具链的完善度不足，在生态系统这一竞争下已经被国外拉开差距，远远落后。

竞争的第二咖位结合自身业务垂类应用是巨头公司不得不考虑的事，将大语言模型嵌入现有产品中，以提供工具的易用性，提高客户生产力，增强产品竞争力，如微软365集成ChatGPT，github接入Copilot，百度将AI搜索接入现有引擎等等。

很多创业公司跟着风口拿到了融资，但是因自身的资金、数据和人才所限，想搞大一统的模型只会迎来毁灭，因而在搞基座模型（我并不看好)，或者在优秀的基座模型上fine-tune模型的同时，也在找应用场景、收集用户数据快速迭代，期望找到赢利点，通过fine-tune的垂类大模型落地，这瞄准的是一些小企业，他们自身条件所限而无法私有化模型，比较人力成本是很贵的，当然也可以是在toC端去尝试用户（比如情感聊天、小说写作等)，创业小公司应该紧盯着这类B端和C端的痛点和需求，避开和巨头公司的正面抗争。

还有一类企业，将数据和经验看的非常重，毕竟一个企业的核心竞争力是是私有的数据和经验，其自身经济条件虽然不足以支撑从基座模型做起，但是在巨头开源构建生态的同时，私有化部署的成本也在不断降低，比如国内的中国移动等老牌国企，这类公司更倾向于fine-tune后构建/部署自己的大模型。对他们来说构建自己构建的好处有以下几点：
1.成本，比如基于开源的大语言模型，那么比直接使用toB的服务成本将更加低廉；
2.可控，因为是公司内托管的，因而LLM环境是完全可控的，包括硬件、软件以及安全性；
3.定制化，可以使用fine-tune或者不同的prompt方法提升LLM在企业特定方面的需求，而这种定制化交给第三方公司往往是比较昂贵的；
4.隐私，OpenAI之类提供API等LLM服务的公司，会收集了用户很多数据，包括用户的prompt、输入以及反馈，如果私有化那么用户数据的安全性将得到大大的保障。
5.可以充分利用国内外云服务，快速且成本低廉的验证LLM私服的各个方面，比如国内的阿里云、国外的亚马逊云，只用云服务，对于数据安全性可以采用加密以及鉴权等方式进一步确保隐私安全性。试错成本低，如果发现业务效果不好，随时停掉云服务即可，没有硬件投入损失。

大模是基于一个pipeline来支持，行业上常称为LLMOps，主要分为芯片层、框架层、模型层、数据层、应用层，以上是围绕着大模型，还有数据标注、算力云平台、向量数据库、AI工具、法务安全合规等

对于创业小公司当前迫切的任务是落地垂类模型，拿到下一场的入场券，对于巨头公司ChatGPT大模型已经有过一次掉队了，因而基座模型持续投入还是当前竞争点之一，另外就是将大模型（还有多模态模型)嵌入自身的产品更早的将模型落地，且也能够回血并加深对大模型的认知，也是在争下一个阶段大模型的领头位置。

大模型应用的商业模式

对于没有成熟业务的创业公司而言，如OpenAI的ChatGPT盈利模式主要为API、订阅制和战略合作（嵌入微软Bing、Office等软件）三种方式，并且已在用户数据积累、产品布局和生态建设层面充分领先；形成了数据、模型上升的飞轮式良性循环，占了先机，在GPT-4多模态模型上商业模式依然如此，并没有大的变化，不过目前仍然是亏损的。

微软的365或者GitHub Copilot也是采取的订阅制，国外的版权意识较强，而订阅付费制能够为公司带来源源不断稳定的现金流，这是很多美国公司喜欢的商业模式。当然也有对话聊天类产品做广告植入的。

相比国外的订阅制，国内更多的是通过广告植入、精准流量提高变现能力，比如对话AI产品插入商品广告链接，根据搜索精准推送，本质上还是更高效地解决信息不对称的问题，最终用户、平台、广告主三方都会从大模型中受益。

shichaog

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
大语言模型之十八-商业思考

大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用，一些策略是将大语言模型集成到公司的现有产品，比如微软的Office接入ChatGPT。当前大语言模型盈利情况堪忧，今年 5 月有媒体曝出因去年开发出 ChatGPT，OpenAI 亏损 5.4 亿美元，微软在 GitHub Copilot拥有 150 万用户的基础上，每月仍倒贴每位用户 20 美元。前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术，其核心思想是降低中小公司的技术门槛和使用成本。
复制链接

扫一扫