腾讯AI Lab联合苏大提出一种新颖的RL评分方法，7B小模型暴打72B巨头！

zenRRan

于 2025-04-09 17:50:06 发布

阅读量892

点赞数 18

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/147107705

版权

算是咱们领域最近的一个新闻：强化学习的“评分标准”升级了！过去，LLM学数学、写代码时，系统只能根据“答案对不对”给个简单对错分。

论文：Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains
链接：https://arxiv.org/pdf/2503.23829

但现在，来自腾讯AI Lab和苏大的研究者搞了个Expanding RLVR(可验证奖励强化学习) Across Diverse Domians，让模型能像人类老师一样，给医学、经济学甚至心理学问题的答案打“软分数”——比如“这个回答80%正确，但漏了一个关键点”。

传统“对错评分” vs 新“软评分”

核心突破：让强化学习跨越学科边界

论文最牛的地方，是让RLVR走出了数学和编程的“舒适圈”。

以往，LLM只能在有标准答案的领域（比如1+1=2）自我训练，但现实中的问题往往是开放式的：比如“如何设计一个心理疏导方案？”或“分析某经济政策的长期影响”。这类问题没有唯一答案，传统RL直接懵圈。

而这篇论文通过两个关键操作破局：

专家参考答案：即使答案很长很复杂，只要有专家写的参考答案，模型就能学习对比；
生成式评分模型：用一个小型LLM（7B参数）当“评分老师”，直接生成0-1之间的“软分数”，而不是死板的对错。

亮点：用“软奖励”替代“对错二分法”

传统方法就像“判断题”，答案要么对（1分）要么错（0分）。但现实中，很多答案可能部分正确。

比如医学诊断：“患者可能是肺炎，建议做CT” vs “患者是肺炎，需立即手术”——前者不够完整，但不算全错。

论文提出的“软奖励”模型，能根据参考答案生成连续分数（比如0.7分），让AI更细腻地学习。更绝的是，这个评分模型只需7B参数（对比GPT-4的万亿参数），训练数据也只用16万条，成本低到离谱！

（具体RL细节还是看论文吧~）

数据分布

数据分布

实验：小模型逆袭，性能吊打巨头

性能对比：软奖励 vs 传统规则奖励

论文实验可总结如下：

数学题：7B小模型用RLVR训练后，正确率比720亿参数的Qwen2.5还高8%；
跨学科题（医学、法律等）：在“自由发挥”的答案场景下，小模型直接碾压传统方法。

数据量增加时性能对比

数据量增加时性能对比

更狠的是，数据量越大，小模型表现越好，而传统方法反而会“学崩”。

Out-of-Distribution

Out-of-Distribution

不小的行业影响

这项研究的意义远超技术本身：

低成本落地：小模型+少数据就能训练，企业不用烧钱买算力；
跨领域通用：未来AI可能在医疗诊断、法律咨询、教育辅导等领域“自学成才”；
抗干扰性强：即使参考答案有噪声（比如专家写错了），模型也能稳健学习。

论文甚至开源了57万条多领域数据集，堪称业界良心！

数据集：https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

总结一下下

用大模型当“陪练”：训练时先用720亿参数的Qwen生成评分数据，再让小模型“偷师”；
反向操作：传统RL怕数据噪声，他们反而用带噪声的数据训练，结果模型更抗造；
隐藏福利：所有代码和模型已开源，普通人也能上手玩！

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。