An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy

516 篇文章 3 订阅

已下架不支持订阅

本文提出Lookahead框架,针对大型语言模型(LLM)的推理速度问题,通过多分支策略和Trie检索过程加速,保证生成精度的同时降低成本。实验证明,该框架能显著提高LLM的推理速度且无损生成准确性。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy》的翻译。

前瞻性:一种无损生成精度的大型语言模型推理加速框架

摘要

随着大型语言模型(LLM)在各种任务(如问答、翻译、文本摘要和对话系统)方面取得了重大进展,对信息准确性的需求变得至关重要,尤其是对于像支付宝这样为数十亿用户服务的严肃金融产品。为了解决这一问题,支付宝开发了一个检索增强生成(RAG)系统,该系统将LLM建立在最准确和最新的信息基础上。然而,对于一个为数百万用户服务的真实世界产品来说,与单纯的实验模型相比,LLM的推理速度成为了一个关键因素。
因此,本文提出了一个通用的框架来加速推理过程,从而大大提高了我们的RAG系统的速度并降低了成本,同时具有无损的生成精度。在传统的推理过程中,LLM按顺序生成每个token,导致时间消耗与生成的token数量成比例。为了增强这一过程,我们的框架名为lookahead,引入了一种多分支策略。我们提出了一种基于Trie的检索(TR)过程,该过程可以同时生成多个分支,每个分支都是一个token序列,而不是一次生成单个token。随后,对于每个分支

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值