[Arxiv 2025] L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

Introduction

  • 作者提出 Length Controlled Policy Optimization (LCPO),使用 GRPO 将推理模型的生成长度控制在指定 budget 以内,由此训练得到的 L1 模型兼具 long-CoT 和 short-CoT 能力,能够通过指定不同的 budget 很好地实现精度和推理效率之间的平衡
  • 值得一提的是,新发布的 Qwen-3 也实现了类似的效果,用户可以自由指定推理中使用的 budget
    在这里插入图片描述

Method

  • 用户给定 prompt x i n e w x_i^{new} xinew,LCPO 需要模型的输出长度 n y n_y ny 满足其中给定的 budget n g o l d , i n_{gold,i} ngold,i
    在这里插入图片描述
  • L1-Exact. L1-Exact 采用 GRPO 优化如下的目标函数,使得模型输出长度尽可能接近给定 budget. 长度惩罚项为 L1 损失函数
    在这里插入图片描述其中,训练时的 n g o l d n_{gold} ngold 均匀采样自 100 ∼ 4000 100\sim 4000 1004000
  • L1-Max. L1-Max 约束模型输出长度少于 budget,这个设定相比 L1-Exact 更加合理,用户在使用时通过 budget 设置最大能承担的推理成本,而模型负责在该 budget 以内进行简洁的推理。目标函数如下:
    在这里插入图片描述其中, δ = 0.5 , α = 0.0003 \delta=0.5,\alpha=0 .0003 δ=0.5,α=0.0003. L1-Max 由 L1-Exact 使用上述目标函数续训得到 (Q. 如果不续训可以吗?)

Experiments

  • Models and Datasets. 数据集采用 DeepScaleR-Preview-Dataset,包含 40K 数学题。模型训练基于 DeepScaleR-1.5B-Preview,该模型由 Qwen-Distilled-R1-1.5B 通过强化学习续训得到。训练时最大生成长度 4K,推理时最大生成长度 8K. L1-Exact 训练 700 steps,L1-Max 基于 L1-Exact 继续训练 120 steps;baseline 中的 Agentica-4K 为 DeepScaleR-1.5B-Preview 用 4K 的训练生成长度做了续训,可以看作是 L1 的能力上界

在这里插入图片描述在这里插入图片描述

References

STM32F103是意法半导体(STMicroelectronics)推出的一款基于ARM Cortex-M3内核的微控制器,广泛应用于工业控制、物联网设备等领域。本资料包主要提供了STM32F103在实现RS485通信及Modbus RTU协议的主机和从机模式下的源代码实例,帮助开发者快速理解和应用这一通讯技术。 RS485是一种物理层通信标准,用于构建多点数据通信网络,具有传输距离远、抗干扰能力强的特点。它采用差分信号传输方式,可以实现双向通信,适合于长距离的工业环境。在RS485网络中,通常有一个主机(Master)和一个或多个从机(Slave),主机负责发起通信,从机响应主机的请求。 Modbus RTU(Remote Terminal Unit)是一种常用的过程控制工业通信协议,基于ASCII或RTU(远程终端单元)报文格式,常用于PLC(可编程逻辑控制器)和嵌入式系统之间的通信。Modbus RTU使用串行通信接口,如RS485,以减少布线成本和提高通信效率。 在STM32F103上实现RS485 Modbus RTU通信,首先需要配置GPIO口作为RS485的硬件接口,包括数据线(一般为RX和TX)和方向控制线(DE和RE)。DE线用于控制发送数据时的数据线方向,RE线则用于接收数据时的方向。这些设置可以通过STM32的HAL库或LL库进行编程。 接着,你需要编写Modbus RTU协议栈的实现,这包括解析和构造Modbus报文、错误检测与处理、超时管理等。Modbus RTU报文由功能码、地址、数据和CRC校验码组成。主机向从机发送请求报文,从机会根据接收到的功能码执行相应的操作,并返回响应报文。 在主机端,你需要实现发送请求和接收响应的函数,以及解析从机返回的数据。在从机端,你需要监听串口,解析接收到的请求,执行相应的功能并构造响应报文。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值