大型语言模型中最大的瓶颈:速率限制

生态系统在渴望利用LLM力量的公司的压力下变得紧张。那些希望在人工智能方面开辟新天地的人可能需要等到GPU供应在未来漫长的道路上进一步开放。具有讽刺意味的是,这些限制可能有助于缓和围绕生成性人工智能的一些泡沫炒作,让行业有时间适应积极的模式,高效、经济地使用它。 

速率限制意味着每个人都在等待更好的计算资源或不同的生成人工智能模型。

大型语言模型(LLM),如OpenAI的GPT-4和Anthropic的Claude 2,凭借其生成类人文本的能力,吸引了公众的想象力。企业也同样热情高涨,许多企业正在探索如何利用LLM来改进产品和服务。然而,一个主要瓶颈严重制约了在生产环境中采用最先进的LLM:速率限制。有一些方法可以通过这些费率限制收费站,但如果没有计算资源的改进,真正的进展可能不会到来。

1、为瓶颈付出的代价

允许访问OpenAI和Anthropic等公司模型的公共LLM API对每分钟可处理的令牌(文本单位)数量、每分钟的请求数量和每天的请求数量施加了严格限制。

例如,这句话将消耗九个标记。目前,对OpenAI GPT-4的API调用限制为每分钟三个请求(RPM)、每天200个请求和每分钟最多10000个令牌(TPM)。

最高级别允许10000 RPM和300000 TPM的限制。对于每分钟需要处理数百万个代币的大型生产应用程序,这些速率限制使得使用最先进的LLM

  • 23
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诗者才子酒中仙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值