在人工智能蓬勃发展的当下,大语言模型(LLM)已成为 AI 领域的明星技术。然而,随着模型规模的不断扩大,如何高效地进行推理成为了一个棘手的问题。面对这一挑战,一款名为 TurboMind 的高效推理引擎应运而生,为 LLM 的应用带来了新的可能。
TurboMind:FasterTransformer 的进化版
TurboMind 是基于英伟达的 FasterTransformer 研发而成的 LLM 推理引擎。它不仅继承了 FasterTransformer 的高效性,还在此基础上进行了多项创新和优化。其核心功能包括对 LLaMa 结构模型的支持、persistent batch 推理模式以及可扩展的 KV 缓存管理器。
架构创新:持久化批处理
TurboMind 引入了一种名为 “persistent batch” 的创新机制,这一机制在某些项目中也被称为 “continuous batching”。这种方法将对话式 LLM 的推理过程建模为一个持续运行的批处理,其生命周期贯穿整个服务过程。
具体实现方式如下:
- 预先准备 N 个批处理槽位(batch slots)。
- 当有空闲槽位时,新的请求会被加入到批处理中。
- 请求对应的 tokens