由于功能更强大,对用户与设备交互的侵入性更强,LLM渴望在设备上执行以更好地保护用户隐私。在这项工作中,我们提出了一种新的移动AI范式:移动设备上的LLM as a system service(LLM AAS)。与以无状态方式执行的传统DNNs不同,这样的系统服务是有状态的:LLMs执行通常需要跨多个调用维护持久状态(主要是KV cache)。为了在设备内存预算紧张的情况下最大限度地减少LLM上下文切换开销,本文提出了LLMS,该技术通过细粒度、分块、全局优化的KV缓存压缩和交换的关键思想来解耦app和LLM上下文的内存管理。通过充分利用KV cache的独特特性,它提出了三种新颖的技术:
(1)容差感知压缩:它根据块对压缩的测量精度容差来压缩块。
(2)IO-重新计算流水线加载:它将重新计算引入换入加速。
(3)区块生命周期管理:它通过提前换出和基于LCTRU(最不可压缩和最近使用的)队列的回收来优化区块的内存活动。
在对完善的跟踪和各种边缘设备进行的评估中,与竞争基准解决方案相比,LLMS将上下文切换延迟降低了多达2个数量级。
LLM-as-a-Service(LLMaaS)
在这项工作中,我们提出了一种新的移动人工智能范式:LLM作为移动设备上的系统服务(LLMaaS)。这表明,移动操作系统将LLM及其推理基础设施作为系统特性公开给移动应用程序,类似于位置或通知服务。应用程序和LLM服务之间的接口基于自然语言的提示。这种模式从根本上不同于现有技术,在现有技术中,应用程序分别拥有自己的模型,而操作系统对此没有可见性。这种