本文是LLM系列文章,针对《CLLMs: Consistency Large Language Models》的翻译。
摘要
Jacobi解码等并行解码方法有望实现更高效的LLM推理,因为它打破了LLM解码过程的顺序性,并将其转换为可并行计算。然而,在实践中,与传统的自回归(AR)解码相比,它几乎没有实现加速,这主要是因为Jacobi解码很少在单个定点迭代步骤中准确预测多个token。为了解决这个问题,我们开发了一种新的方法,旨在实现从任何状态到雅可比轨迹上的不动点的快速收敛。这是通过细化目标LLM以在给定任何状态作为输入的情况下一致地预测不动点来实现的。大量实验证明了我们方法的有效性,显示出生成速度提高了2.4倍到3.4倍,同时在特定领域和开放领域基准测试中保持了生成质量。我们的代码在https://github.com/hao-ailab/ConsistencyLLM上可用。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在这项工作中,我们介绍了CLLMsÿ