论文标题 :Sleep-time Compute: Beyond Inference Scaling at Test-time
论文地址 :https://arxiv.org/pdf/2504.13171
项目地址 :https://github.com/letta-ai/sleep-time-compute
传统 AI 的问题
传统的人工智能(AI)系统通常只在用户提出问题时才进行推理计算,这种方式称为“测试时计算”(Test-time Compute)。AI平时没事干,空闲时间没利用起来,计算能力白白闲置。如果问题复杂(比如需要处理一大堆信息),AI得花好几分钟才能给出答案,你得干等着,而且这过程还特别费电(计算成本高)。
缺点:
- 每次查询都需要重新处理相同的上下文信息,导致重复计算。
- 面对复杂问题时,响应时间长、计算成本高。
创新:睡眠时间计算(Sleep-time Compute)
论文提出了一种新方法,称为“睡眠时间计算”。其核心思想是:
- 在 AI 空闲时段(即“睡觉”时),预先处理可能会被查询的上下文信息。
- 将原始的上下文(raw context)整理成更容易理解的信息上下文(learned context)。
- 当用户提出查询时,AI 可以快速利用预处理的结果,减少实时计算负担。
传统测试时计算流程
- 用户提供查询(q)和上下文(c)。
- 模型即时进行推理计算,输出答案(a)。
缺点:
- 每个查询都需独立处理,重复计算相同的上下文。
- 复杂上下文导致响应时间长,用户体验差。
睡眠时间计算流程
- 在空闲时段,预处理上下文(c),生成优化后的上下文(c’)。
- 当用户查询时,仅需轻量级的推理计算,快速输出答案(a)。
优势:
- 降低实时计算成本,提高响应速度。
- 相同上下文的多个查询可以共享预处理结果,摊销计算成本。
- 预处理的上下文有助于提高推理准确率。
研究人员通过实验验证了睡眠时间计算的有效性:
- 准确率提升: 在相同的测试时间预算下,准确率提高了13%至18%。
- 成本降低: 当一个上下文对应多个查询时,平均每个查询的计算成本降低了2.5倍。
- 适用场景: 对于可预测性高的查询(如代码库相关问题),睡眠时间计算的效果最为显著。
适用场景
- 代码智能体: 预先学习代码库,加速后续编程请求的响应。
- 对话智能体: 基于历史交流记录优化上下文,提升交互效率。
实际意义
- 降低推理成本: 通过空闲时段的预处理,减少实时计算资源的消耗。
- 突破能力上限: 结合测试时与睡眠时计算,推动 AI 系统迈向更高的智能层级。