【论文浅尝】LLM as a System Service on Mobile Devices

本文提出了一种新的移动AI范式LLM-as-a-Service(LLMaaS),通过LLMS系统解决LLM上下文管理问题,特别是通过容差感知压缩、IO-重新计算流水线加载和区块生命周期管理技术减少上下文切换延迟。实验表明,LLMS有效减少了设备内存使用,提升服务质量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        由于功能更强大,对用户与设备交互的侵入性更强,LLM渴望在设备上执行以更好地保护用户隐私。在这项工作中,我们提出了一种新的移动AI范式:移动设备上的LLM as a system service(LLM AAS)。与以无状态方式执行的传统DNNs不同,这样的系统服务是有状态的:LLMs执行通常需要跨多个调用维护持久状态(主要是KV cache)。为了在设备内存预算紧张的情况下最大限度地减少LLM上下文切换开销,本文提出了LLMS,该技术通过细粒度、分块、全局优化的KV缓存压缩和交换的关键思想来解耦app和LLM上下文的内存管理。通过充分利用KV cache的独特特性,它提出了三种新颖的技术:

(1)容差感知压缩:它根据块对压缩的测量精度容差来压缩块。

(2)IO-重新计算流水线加载:它将重新计算引入换入加速。

(3)区块生命周期管理:它通过提前换出和基于LCTRU(最不可压缩和最近使用的)队列的回收来优化区块的内存活动。

在对完善的跟踪和各种边缘设备进行的评估中,与竞争基准解决方案相比,LLMS将上下文切换延迟降低了多达2个数量级。

LLM-as-a-Service(LLMaaS)

        在这项工作中,我们提出了一种新的移动人工智能范式:LLM作为移动设备上的系统服务(LLMaaS)。这表明,移动操作系统将LLM及其推理基础设施作为系统特性公开给移动应用程序,类似于位置或通知服务。应用程序和LLM服务之间的接口基于自然语言的提示。这种模式从根本上不同于现有技术,在现有技术中,应用程序分别拥有自己的模型,而操作系统对此没有可见性。这种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是饿梦啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值