让 AI 在“睡觉”时也能学习(Sleep-time Compute: Beyond Inference Scaling at Test-time)

论文标题 :Sleep-time Compute: Beyond Inference Scaling at Test-time
论文地址https://arxiv.org/pdf/2504.13171
项目地址https://github.com/letta-ai/sleep-time-compute


传统 AI 的问题

传统的人工智能(AI)系统通常只在用户提出问题时才进行推理计算,这种方式称为“测试时计算”(Test-time Compute)。AI平时没事干,空闲时间没利用起来,计算能力白白闲置。如果问题复杂(比如需要处理一大堆信息),AI得花好几分钟才能给出答案,你得干等着,而且这过程还特别费电(计算成本高)。

缺点:

  • 每次查询都需要重新处理相同的上下文信息,导致重复计算。
  • 面对复杂问题时,响应时间长、计算成本高。

创新:睡眠时间计算(Sleep-time Compute)

论文提出了一种新方法,称为“睡眠时间计算”。其核心思想是:

  • 在 AI 空闲时段(即“睡觉”时),预先处理可能会被查询的上下文信息。
  • 将原始的上下文(raw context)整理成更容易理解的信息上下文(learned context)。
  • 当用户提出查询时,AI 可以快速利用预处理的结果,减少实时计算负担。

传统测试时计算流程

  1. 用户提供查询(q)和上下文(c)。
  2. 模型即时进行推理计算,输出答案(a)。

缺点:

  • 每个查询都需独立处理,重复计算相同的上下文。
  • 复杂上下文导致响应时间长,用户体验差。

睡眠时间计算流程

  1. 在空闲时段,预处理上下文(c),生成优化后的上下文(c’)。
  2. 当用户查询时,仅需轻量级的推理计算,快速输出答案(a)。

优势:

  • 降低实时计算成本,提高响应速度。
  • 相同上下文的多个查询可以共享预处理结果,摊销计算成本。
  • 预处理的上下文有助于提高推理准确率。

研究人员通过实验验证了睡眠时间计算的有效性:

  • 准确率提升: 在相同的测试时间预算下,准确率提高了13%至18%。
  • 成本降低: 当一个上下文对应多个查询时,平均每个查询的计算成本降低了2.5倍。
  • 适用场景: 对于可预测性高的查询(如代码库相关问题),睡眠时间计算的效果最为显著。

适用场景

  • 代码智能体: 预先学习代码库,加速后续编程请求的响应。
  • 对话智能体: 基于历史交流记录优化上下文,提升交互效率。

实际意义

  • 降低推理成本: 通过空闲时段的预处理,减少实时计算资源的消耗。
  • 突破能力上限: 结合测试时与睡眠时计算,推动 AI 系统迈向更高的智能层级。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值