Prompt Cache技术,旨在通过在大型语言模型(LLM)的推理过程中重用不同提示(prompts)之间的注意力状态来加速推理。
图1 比较大型语言模型(LLM)生成Token的方法,每种方法展示三个步骤(1至3)。每个框表示一个令牌。蓝色框代表提示。(a) 一个LLM接收一个提示(蓝色令牌)并预测下一个令牌(A)(1)。然后,它将生成的令牌(A)附加到提示上以预测下一个令牌(B)(2)。
这个过程被称为自回归,会一直持续直到满足停止条件。(b) KV缓存仅在第一步(1)计算一次提示的时间注意力状态,并在随后的步骤中重复使用它们;© Prompt Cache在服务之间重用KV状态以绕过提示注意力计算。当加载一个模式时,Prompt Cache会填充其缓存,并为从模式派生的提示重用缓存状态(1)。图2进一步详细说明了步骤1。
-
问题识别:许多输入提示在结构上高度重叠,例如系统消息、提示模板和文档上下文。这些重叠的文本段可以预先计算并存储其注意力状态,以便在用户提示中出现时重用。
-
Prompt Cache技术:通过使用称为Prompt Markup Language(PML)的模式,明确定义可重用的文本段,称为提示模块(prompt modules)。PML确保在重用注意力状态时位置的准确性,并为用户提供了一个接口来访问他们的提示中的缓存状态。
-
工作流程:当Prompt Cache接收到一个提示时,它首先处理其模式,并计算其提示模块的注意力状态。然后,这些状态被重用于提示中的提示模块,以及其他从同一模式派生的提示。
图2 Prompt Cache中的重用机制:
(i) 首先,PML在模式和提示中明确了可重用的提示模块。提示模块可以有参数,如行程计划。导入模块的提示为参数(持续时间)提供值(3天)。提示可以在排除的模块和参数的位置上包括新的文本段,并在末尾添加。
(ii) 其次,提示模块编码为模式中的所有模块预先计算注意力状态(1),并为将来的重用而缓存它们。
(iii) 第三,当提供提示时,Prompt Cache采用缓存推理:它检索为导入的提示模块缓存的注意力状态(2),为参数(3)和新的文本段(4)计算它们,最后将它们连接起来,以产生整个提示的注意力状态(5)。这个图是对图1c中步骤1的进一步阐述。
- 设计和实现:Prompt Cache的设计包括了对提示结构的明确化、提示模块的编码、以及缓存推理的详细过程。实现使用了HuggingFace的transformers库,并在CPU和GPU上进行了评估。
使用原型实现,在多个LLM上评估了Prompt Cache。结果表明,Prompt Cache显著减少了首次生成token的时间延迟,尤其是在基于文档的问答和推荐等长提示上。GPU上的性能提升范围从8倍到60倍,CPU上则高达60倍,所有这些提升都在保持输出准确性的同时,无需修改模型参数。
GPU延迟测量:首次令牌时间(TTFT)对于三个NVIDIA GPU上的八个LongBench数据集。
CPU延迟测量:首次令牌时间(TTFT)对于两个CPU上的八个LongBench数据集。
https://arxiv.org/pdf/2311.04934
PROMPT CACHE: MODULAR ATTENTION REUSE FOR LOW-LATENCY INFERENCE
耶鲁大学、Google
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费
】
如有侵权,请联系删除。