本文是LLM系列文章,针对《Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy》的翻译。
摘要
随着大型语言模型(LLM)在各种任务(如问答、翻译、文本摘要和对话系统)方面取得了重大进展,对信息准确性的需求变得至关重要,尤其是对于像支付宝这样为数十亿用户服务的严肃金融产品。为了解决这一问题,支付宝开发了一个检索增强生成(RAG)系统,该系统将LLM建立在最准确和最新的信息基础上。然而,对于一个为数百万用户服务的真实世界产品来说,与单纯的实验模型相比,LLM的推理速度成为了一个关键因素。
因此,本文提出了一个通用的框架来加速推理过程,从而大大提高了我们的RAG系统的速度并降低了成本,同时具有无损的生成精度。在传统的推理过程中,LLM按顺序生成每个token,导致时间消耗与生成的token数量成比例。为了增强这一过程,我们的框架名为lookahead,引入了一种多分支策略。我们提出了一种基于Trie的检索(TR)过程,该过程可以同时生成多个分支,每个分支都是一个token序列,而不是一次生成单个token。随后,对于每个分支