【论文浅尝】LLM as a System Service on Mobile Devices-CSDN博客

本文链接：https://blog.csdn.net/qq_47982709/article/details/138270164

本文提出了一种新的移动AI范式LLM-as-a-Service(LLMaaS)，通过LLMS系统解决LLM上下文管理问题，特别是通过容差感知压缩、IO-重新计算流水线加载和区块生命周期管理技术减少上下文切换延迟。实验表明，LLMS有效减少了设备内存使用，提升服务质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于功能更强大，对用户与设备交互的侵入性更强，LLM渴望在设备上执行以更好地保护用户隐私。在这项工作中，我们提出了一种新的移动AI范式:移动设备上的LLM as a system service（LLM AAS）。与以无状态方式执行的传统DNNs不同，这样的系统服务是有状态的:LLMs执行通常需要跨多个调用维护持久状态（主要是KV cache）。为了在设备内存预算紧张的情况下最大限度地减少LLM上下文切换开销，本文提出了LLMS，该技术通过细粒度、分块、全局优化的KV缓存压缩和交换的关键思想来解耦app和LLM上下文的内存管理。通过充分利用KV cache的独特特性，它提出了三种新颖的技术:

（1）容差感知压缩:它根据块对压缩的测量精度容差来压缩块。

（2）IO-重新计算流水线加载:它将重新计算引入换入加速。

（3）区块生命周期管理:它通过提前换出和基于LCTRU（最不可压缩和最近使用的）队列的回收来优化区块的内存活动。

在对完善的跟踪和各种边缘设备进行的评估中，与竞争基准解决方案相比，LLMS将上下文切换延迟降低了多达2个数量级。

LLM-as-a-Service(LLMaaS)

在这项工作中，我们提出了一种新的移动人工智能范式:LLM作为移动设备上的系统服务(LLMaaS)。这表明，移动操作系统将LLM及其推理基础设施作为系统特性公开给移动应用程序，类似于位置或通知服务。应用程序和LLM服务之间的接口基于自然语言的提示。这种模式从根本上不同于现有技术，在现有技术中，应用程序分别拥有自己的模型，而操作系统对此没有可见性。这种