Tiny Reasoning模型:LoRA+RL=9美元训练费,性能碾压同行

低成本也能训练“聪明”小模型?Tina的野心

当前大语言模型动辄千亿参数,训练成本高达数百万美元,但Tina团队反其道而行——用1.5B参数的“迷你”模型,搭配创新方法,实现低成本高效推理。

核心问题:如何让小模型像学霸一样会解题?传统方法要么依赖昂贵的人工标注数据,要么需要全参数训练(相当于给模型换全身器官),成本极高。Tina的目标是——只给模型“微整形”,花小钱办大事。

论文:Tina: Tiny Reasoning Models via LoRA
链接:https://arxiv.org/pdf/2504.15777

Tina与基线模型性能对比
Tina与基线模型性能对比

LoRA+强化学习,给模型“穿轻便外套”

LoRA技术:想象给模型穿一件可调节的轻便外套。传统训练要修改所有参数(相当于换全身衣服),而LoRA只需在关键层叠加两个小矩阵(外套),训练成本骤降。

公式简化版
原模型输出 = 基础参数×输入
LoRA增强后 = 基础参数×输入 + 小矩阵A×小矩阵B×输入

强化学习(RL):让模型像考试刷题一样,通过试错学习解题步骤。每做对一步得奖励,最终形成“推理肌肉记忆”。

对比LoRA与全参数训练的FLOPs,显示前者计算量骤减

实验:9美元训练费,性能碾压同行

Tina在多个数学推理任务(如AIME、AMC)中表现亮眼:

  • 成本:最佳模型训练+评估仅需9美元(约一杯奶茶钱),比传统方法便宜260倍。

  • 性能:部分任务准确率超全参数模型20%,例如AIME24达到43.33% Pass@1(人类考生水平约50-60%)。

对比基线模型与Tina的任务得分
对比基线模型与Tina的任务得分
Tina不同变体的性能
Tina不同变体的性能

发现:小模型如何快速学会“解题套路”

“格式学习”假说:LoRA擅长让模型快速掌握“答题格式”。比如数学题需要分步骤推导,LoRA调整模型输出结构,而保留原有知识库,相当于教会学生“先写解,再分步计算”的应试技巧。

训练阶段转折点

训练中格式奖励与准确率的动态关系,最佳表现出现在格式稳定期前

备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值