AI和你聊天,成本有多高?

AI和你聊天,成本有多高?

导读:

随着人工智能技术的迅猛发展,AI聊天已经逐渐融入我们的日常生活,无论是智能助手、在线客服还是娱乐互动,都少不了它们的身影。然而,随着应用的广泛化,朋友们会发现AI聊天似乎有点不稳定,有时候会延迟很久,究其原因在于AI聊天成本过高制约了AI算力提升。

本文首先通过数据和实例,深入分析当前AI聊天成本的现状,其次,从算法复杂性、计算资源需求、数据存储和处理成本等多个方面入手揭示成本背后的深层原因;最后,将从算法优化、硬件升级、云服务利用等多个角度展开讨论,探索降低成本的可行路径

  1. AI聊天成本现状

    1. 消耗算力巨大

首先,让我们深入探讨一下“算力”这一概念。简而言之,算力衡量的是计算机或处理器在特定时间内执行计算任务的能力。对于人工智能(AI)而言,算力决定了处理庞大数据量、执行复杂计算和实现高级算法的速度。随着AI技术的飞速发展,对算力的需求也呈现出持续增长的态势。

那么,为何AI如此依赖强大的算力呢?这主要源于其两大核心特性:深度学习和神经网络。深度学习模拟了人脑神经网络的工作原理,通过多层神经元对数据进行分析和处理。而神经网络则借鉴了生物神经系统的计算模型,能够自动识别模式并进行预测。这两大特性使得AI能够高效地处理海量的非结构化数据,从而做出更为精准的数据分析和决策。

然而,深度学习和神经网络的复杂性也意味着巨大的计算需求。以图像识别为例,一个典型的卷积神经网络需要处理数百万甚至数十亿个像素点,同时这些网络往往包含数百层甚至上千层的神经元。为了满足这些庞大的计算需求,AI系统必须拥有强大的算力支持。

随着大语言模型的兴起,数据量和参数规模呈现出“指数级”的增长,进一步推动了智能算力需求的爆炸式增长。以OpenAI为例,其2018年推出的GPT模型拥有1.17亿的参数和约5GB的预训练数据量。而到了GPT-3,参数量激增至1750亿,预训练数据量更是高达45TB,相当于约3000亿个tokens。GPT-3的总算力消耗达到了惊人的3646PFLOPS-day。而在实际运行中,GPU算力除了用于模型训练外,还需应对通信、数据读写等任务,进一步加剧了算力的消耗。

面向推理侧的算力需求同样不容小觑。以GPT-4为例,若我们假设日活跃用户达到10亿,每人每天使用7000个tokens(包含上下文信息),并且不考虑其他额外成本,那么每天的推理费用将高达2.1亿美金。按年计算,这一费用将攀升至惊人的600亿美金。这一数字直观地展示了AI算力需求的庞大和昂贵。

继续深入探讨,600亿美金的AI推理市场费用意味着其巨大的经济规模。如果进一步放大AI推理市场的体量至十倍,其潜在市场规模将逼近甚至超越当前整个云计算产业的总收入。这一对比凸显了AI推理在未来市场中的巨大潜力和无限可能。

从商业角度来看,AI推理无疑是一个充满活力和前景的市场。未来,随着技术的进一步成熟和市场的不断扩大,AI推理市场将展现出更加广阔的发展前景和巨大的商业价值。

2.ChatGPT日耗电量超50万度

训练AI大模型正成为能源消耗的“黑洞”,其电力需求远超传统数据中心。OpenAI的报告揭示了一个惊人的趋势:自2012年以来,AI训练应用的电力需求几乎以指数级增长,每3到4个月就翻倍。而华为AI首席科学家田奇的数据更是震撼,显示AI算力在过去十年间实现了高达40万倍的飞跃。这足以说明,AI大模型已成为名副其实的“能源巨兽”。

具体到实际消耗,训练谷歌的PaLM大语言模型所需的电量高达3436兆瓦时,这一数字令人咋舌,足以供应11.8万个美国家庭一整天的电力需求。即便是规模较小的BERT模型,其训练过程中的电量消耗也达到了惊人的1.5兆瓦时,这相当于连续观看流媒体视频超过2000小时。

因此,对于AI行业而言,如何在满足不断增长的计算需求的同时,降低能源消耗、提高能源利用效率,已成为一个亟待解决的问题。

3.AI的隐形成本:水资源消耗与碳排放

AI在运行时对水资源的需求同样巨大。这主要源于算力设备在长时间、高强度运行下所产生的热量,需要进行大量的冷却工作。

谷歌的环境报告显示,2022年,该公司为数据中心散热所消耗的水量高达56亿加仑(约212亿升),这相当于8500个奥运会标准游泳池的容量。微软的数据中心在训练GPT-3模型时,所消耗的水量相当于填满一个核反应堆冷却塔所需的水量,约为70万升。即便是用户在使用生成式AI工具时,也会产生相应的水资源消耗。ChatGPT每与用户交流25-50个问题,就可能消耗掉500毫升的水。

除了水资源消耗,AI大模型还是碳排放的“大户”。斯坦福大学的报告显示,OpenAI的GPT-3模型在训练期间释放了高达502公吨的碳,这一数字相当于8辆普通汽油乘用车一生的碳排放量,或人均91年的碳排放量。

AI 推理成本高昂的原因分析

  1. 挑战 1:生产资料昂贵

在AI的迅猛发展中,GPU、ASIC等加速器无疑站在了行业的风口浪尖。然而,事实上,任何数据中心都无法脱离CPU的支撑,它们之间的关系就像鱼与水一样紧密相连。

目前,AI大模型之间的“竞争”主要围绕着参数量展开,通过不断增大参数量来追求更强大的智能涌现。面对AI芯片价格的上涨,很多公司并没有话语权。因为在这个竞争激烈的市场中,错过这个机遇可能会让公司失去竞争力。

挑战 2:LLM 参数还在越来越大

技术不断向前发展,大型模型的参数数量也在快速增加。比如,Mixtral今年推出了一个拥有141B参数的模型,Grok也发布了一个341B参数的模型。Llama3宣布了一个400B参数的模型,而备受瞩目的GPT-5模型预计将达到更高的参数规模,尽管具体数字尚未公布。这些庞大的模型需要更多的计算能力,这自然也导致了推理成本的上升。

多模态技术的发展,尤其是对音视频数据的处理,进一步增加了推理的难度。尽管Sora模型的参数量据称是10B(官方尚未证实),但音视频生成的长序列特性需要处理的Token数量远超大型语言模型,这会导致计算量和显存需求大幅增加,推理成本的增长趋势也呈现出指数级上升。

挑战 3:推理效率低

大模型在进行推理时普遍效率不高,这主要是由算法和硬件两个方面的因素造成的。

从算法角度来看,大型模型在自回归推理时,随着生成文本长度的增加,计算量会呈平方级增长。换句话说,生成的文本越长,推理速度就越慢。

在硬件方面,传统的GPU架构在推理过程中需要频繁进行数据传输。这会严重限制推理效率。例如,在推理过程中,数据需要在不同层级的缓存之间进行大量通信,这不仅占用了GPU的计算能力,还导致系统需要花费大量时间等待数据传输完成。

挑战 4:业务场景丰富,落地链路长

业务场景的多样化和应用链路的延长往往会间接推高推理成本。

随着业务需求的不断扩展,为了应对各种复杂和多变的情况,通常需要开发更加复杂和庞大的模型。这些模型往往需要更多的计算和存储资源,从而增加了推理过程中的成本。

应用链路的延长意味着从模型的训练到实际应用部署,需要经过多个阶段,如数据预处理、模型训练、优化和部署等。每个环节都可能需要消耗大量的计算和存储资源,都会推高成本。

  1. 如何降低成本

    1. 思路 1:利用分布式云,降低成本

在分布式云的应用上,我们可以利用市场的力量,通过社会、经济和技术的协同作用,获取成本更低的生产资料,例如GPU和电力资源。

以GPU为例,虽然高端GPU价格不菲,但中低端或旧款GPU价格相对低廉。我们可以通过分布式云,整合大量这类GPU(如RTX 4090等),构建起一个庞大的分布式计算网络,有效降低计算成本。此外,通过智能的能源管理和调度,还可以减少能源和散热成本,进一步降低推理成本。

相较于传统的大型数据中心,分布式云通过在全球范围内建立小型数据中心或边缘计算节点,利用各地的低成本能源和算力资源,从而降低整体运营成本。

  1. 思路 2:AI推理加速,提升效率,降低成本

尽管分布式云可以降低成本,但其降低空间有限。实际上,通过推理加速技术,我们可以实现更大的成本节约。

推理加速技术,以大型语言模型(LLM)为例,主要关注以下三个关键指标:

- **Time To First Token (TTFT)**:首Token延迟,即从输入到输出第一个Token的时间。在实时流式应用中,TTFT至关重要,因为它直接影响用户体验。

- **Time Per Output Token (TPOT)**:每个输出Token的延迟(不包括首个Token)。在批处理应用中,TPOT是关键指标,因为它决定了推理过程的总时长。

- **Throughput**:吞吐量,即系统每秒能生成的Token总数。与前两个指标关注单个请求不同,吞吐量关注的是所有并发请求的总体性能。

通过优化这些指标,不仅可以提升用户体验,还能增加系统的处理能力,使系统在单位时间内能处理更多数据,从而提高推理效率。

降低延迟和提高吞吐量不仅改善用户体验,还直接影响推理成本。优化后的系统能更高效地使用计算资源,如CPU、GPU和内存,从而降低单次推理任务的成本。这种成本降低体现在硬件资源消耗和时间成本上,因为更高效的推理过程意味着任务完成时间的缩短。

例如,如果同样的GPU能在更短时间内完成更多任务,那么在生产资料不变的情况下,单任务的推理成本就会降低。推理加速的本质在于解决性能瓶颈:显存、算力和带宽。

想象一下,如果有限的显存能更高效地利用,就能存储更多的数据。同样,如果能在运行时更精细地管理算力,就能让更多计算任务并行执行。至于带宽,它就像是数据在显卡和其他存储设备之间传输的通道。如果我们能减少数据在这条通道上的拥堵,比如通过降低通信量,这也是一种有效的优化策略。

以 GPU 为例,虽然高端 GPU 的价格昂贵,但是中低端 GPU/旧 GPU 便宜。我们可以通过分布式云的方式,利用其强大的市场动员能力,将大量中低端 GPU 汇聚起来(如 RTX 4090 等),形成一个庞大的分布式 GPU 算力网络,从而降低算力成本。同时,通过合理的能源管理和调度,可以降低能源消耗和散热成本,进一步降低推理成本。

传统的大型数据中心虽然具备强大的处理能力,但其成本高昂,不仅包括硬件设备的购置和维护,还包括能源的消耗和散热的需求。分布式云通过建立在全球各个位置小型数据中心或边缘计算节点,充分利用各地的廉价能源和算力资源,降低整体成本。


超级AI大脑

超级AI大脑是一个基于Spring Cloud的GPT机器人。

  1. 已对接GPT-3.5、GPT-4.0、GPT-4Turbo、Kimi、GPT-4o等主流AI聊天模型。
  2. 集成stable diffusion 、DALLE3MidJourney、百度AI绘画等主流AI绘画模型
  3. 提供用户管理、订单管理、支付管理、分销管理、提现服务及报表统计等服务。
  4. 支持pc、Android、IOS、H5等全端服务,并提供Online在线二次开发,App在线开发维护和prompt提示词在线无限扩展能力。
  5. 能够结合GPT的强大的问答系统和知识图谱,为用户提供全面、准确的答案。
  6. 整合GPT强大提示词能力,为SDMJ绘图提供丰富的提示词模版。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值