Tiny Reasoning模型：LoRA+RL=9美元训练费，性能碾压同行

zenRRan

于 2025-04-27 21:32:31 发布

阅读量369

点赞数 3

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/147786386

版权

低成本也能训练“聪明”小模型？Tina的野心

当前大语言模型动辄千亿参数，训练成本高达数百万美元，但Tina团队反其道而行——用1.5B参数的“迷你”模型，搭配创新方法，实现低成本高效推理。

核心问题：如何让小模型像学霸一样会解题？传统方法要么依赖昂贵的人工标注数据，要么需要全参数训练（相当于给模型换全身器官），成本极高。Tina的目标是——只给模型“微整形”，花小钱办大事。

论文：Tina: Tiny Reasoning Models via LoRA
链接：https://arxiv.org/pdf/2504.15777

Tina与基线模型性能对比

Tina与基线模型性能对比

LoRA+强化学习，给模型“穿轻便外套”

LoRA技术：想象给模型穿一件可调节的轻便外套。传统训练要修改所有参数（相当于换全身衣服），而LoRA只需在关键层叠加两个小矩阵（外套），训练成本骤降。

公式简化版：
原模型输出 = 基础参数×输入
LoRA增强后 = 基础参数×输入 + 小矩阵A×小矩阵B×输入

强化学习（RL）：让模型像考试刷题一样，通过试错学习解题步骤。每做对一步得奖励，最终形成“推理肌肉记忆”。

对比LoRA与全参数训练的FLOPs，显示前者计算量骤减

实验：9美元训练费，性能碾压同行

Tina在多个数学推理任务（如AIME、AMC）中表现亮眼：

成本：最佳模型训练+评估仅需9美元（约一杯奶茶钱），比传统方法便宜260倍。
性能：部分任务准确率超全参数模型20%，例如AIME24达到43.33% Pass@1（人类考生水平约50-60%）。

对比基线模型与Tina的任务得分

对比基线模型与Tina的任务得分

Tina不同变体的性能

Tina不同变体的性能

发现：小模型如何快速学会“解题套路”

“格式学习”假说：LoRA擅长让模型快速掌握“答题格式”。比如数学题需要分步骤推导，LoRA调整模型输出结构，而保留原有知识库，相当于教会学生“先写解，再分步计算”的应试技巧。

训练阶段转折点：

训练中格式奖励与准确率的动态关系，最佳表现出现在格式稳定期前

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。