ChatGPT背后的经济账

本文从经济学角度探讨了大型语言模型(LLM)如ChatGPT在搜索领域的经济可行性。尽管技术上可能实现,但将LLM整合进搜索可能会使现有搜索引擎的成本增加约15%,达到约100亿美元。此外,训练LLM的成本在降低,但高质量训练数据的需求成为新瓶颈。未来,优化硬件和提高利用率将是降低成本的关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

29e0785e99cd6de1511a2ae59a373a3a.jpeg

ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本,从而造成对LLM的开发和应用偏离实际的误判。

本文作者从经济学切入,详细推导了类ChatGPT模型搜索的成本、训练GPT-3以及绘制LLM成本轨迹的通用框架,为探讨LLM成本结构和其未来发展提供了可贵的参考视角。

作者|Sunyan

翻译|杨婷、徐佳渝、贾川

重点概览:

  • LLM驱动的搜索已经在经济上可行:粗略估计,在现有搜索成本结构的基础上,高性能LLM驱动搜索的成本约占当下预估广告收入/查询的15%。

  • 但经济可行并不意味着经济合理:LLM驱动搜索的单位经济性是有利可图的,但对于拥有超1000亿美元搜索收入的现有搜索引擎来说,添加此功能可能意味着超100亿美元的额外成本。

  • 其他新兴的LLM驱动业务利润很高:比如Jasper.ai使用LLM生成文案,很可能有SaaS服务那样的毛利率(超75%)。

  • 对于大公司而言,训练LLM(即使是从头开始)的成本并不高:如今,在公有云中训练GPT-3仅需花费约140万美元,即使是像PaLM这样最先进的模型也只需花费约1120万美元。

  • LLM的成本可能会显著下降:自GPT-3发布的两年半时间里,与GPT-3性能相当的模型的训练和推理成本下降了约80%。

  • 数据是LLM性能的新瓶颈:与增加高质量训练数据集的大小相比,增加模型参数的数量能获得的边际收益越来越小。

1

动机

LLM的惊人表现引发了人们的广泛猜想,这些猜想主要包括LLM可能引发的新兴商业模式和对现有模式的影响。

搜索是一个有趣的机会,2021年,仅谷歌就从搜索相关的广告中获得了超1000亿美元的收入[1]。ChatGPT(一个使用LLM的聊天机器人,它可以生成高质量的答案,以回答类似于搜索的查询)的“病毒性”传播已经引发了许多关于搜索领域潜在影响的思考,其中一个就是LLM如今的经济可行性:

  • 一位声称是谷歌员工的人在HackerNews上表示,要想实施由LLM驱动的搜索,需要先将其成本降低10倍。

  • 与此同时,微软预计将在3月份推出LLM版本的Bing[3],而搜索初创公司如You.com已经将该技术嵌入到了他们的产品之中[4]。

  • 最近,《纽约时报》报道,谷歌将在今年推出带有聊天机器人功能的搜索引擎[5]。

更广泛的问题是:将LLM纳入当前产品和新产品的经济可行性如何?在本文中,我们梳理了当今LLM的成本结构,并分析其未来可能的发展趋势。

2

重温LLM工作原理

尽管后续章节的技术性更强,但这篇文章对机器学习熟悉程度不做要求,即使不熟悉这方面内容的人也可以放心阅读。为了说明LLM的特殊之处,现做一个简要复习。

语言模型在给定上下文的情况下,对可能输出的token作出预测:

2e16d22bb5f3a8022cb6d58c03fe7acd.jpeg

自回归语言模型(Autoregressive Language Model)输入上下文和输出内容的图示(在实践中,token通常是子词:即“happy”可能被分解为两个token,例如“hap”、“-py”)

为了生成文本,语言模型根据输出token的概率重复采样新token。例如,在像ChatGPT这样的服务中,模型从一个初始prompt开始,该prompt将用户的查询作为上下文,并生成token来构建响应(response)。新token生成后,会被附加到上下文窗口以提示下一次迭代。

语言模型已经存在了几十年。当下LLM性能的背后是数十亿参数的高效深度神经网络(DNN)驱动。参数是用于训练和预测的矩阵权重,浮点运算(FLOPS)的数值通常与参数数量(parameter count)成比例。这些运算是在针对矩阵运算优化的处理器上计算的,例如GPU、TPU和其他专用芯片。

随着LLM参数量呈指数增长,这些操作需要更多的计算资源,这是导致LLM成本增加的潜在原因。

3

LLM驱动搜索的成本

本节,我们将估算运行LLM驱动搜索引擎的成本。应该如何实施这样的搜索引擎仍是一个活跃的研究领域,我们这里主要考虑两种方法来评估提供此类服务的成本范围:

  • ChatGPT Equivalent:一个在庞大训练数据集上训练的LLM,它会将训练期间的知识存储到模型参数中。在推理过程中(使用模型生成输出),LLM无法访问外部知识[6]。

    • 这种方法有如下两大缺点:

      • 容易“幻想”事实。

      • 模型知识滞后,仅包含最后训练日期之前的可用信息。

  • 2-Stage Search Summarizer:一种架构上类似的LLM,可以在推理时访问Google或Bing等传统搜索引擎。在这种方法的第一阶段,我们通过搜索引擎运行查询以检索前K个结果。在第二阶段,通过LLM运行每个结果以生成K个响应,该模型再将得分最高的响应返回给用户[7]。

    • 相比ChatGPT Equivalent,这种方法的优点是:

      • 能够从检索到的搜索结果中引用其来源。

      • 能获取最新信息。

然而,对于相同参数数量的LLM,这种方法需要更高的计算成本。使用这种方法的成本也增加了搜索引擎的现有成本,因为我们在现有搜索引擎的结果上增加了LLM。

一阶近似:基础模型API

最直接的成本估算方法是参考市场上现有基础模型API的标价,这些服务的定价包括成本的溢价部分,这部分是供应商的利润来源。一个代表性的服务是OpenAI,它提供基于LLM的文本生成服务。

OpenAI的Davinci API由GPT-3的1750亿参数版本提供支持,与支持ChatGPT的GPT-3.5模型具有相同的参数数量[8] 。现在用该模型进行推理的价格约为0.02美元/750个单词(0.02美元/1000个token,其中1000token约等于750个单词);用于计算定价的单词总数包括输入和输出[9]。

f12116b85fff5eedb0ee405f6a1eb1a1.jpeg

按模型功能划分的基础模型API定价 (OpenAI)

我们这里做了一些简单假设来估计将支付给OpenAI的搜索服务费用:

  • 在ChatGPT equivalent的实现中,我们假设该服务平均针对50字的prompt生成400字的响应。为了产生更高质量的结果,我们还假

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值