关于DeepSeek R1的四个常见误区

关于DeepSeek R1的四个常见误区

作者:ybq(中科院大学 信号与信息处理硕士)

r1 技术报告的发布已经两个多月了,开源社区的各种复现工作让人眼花缭乱,这里我也简单总结一下过去两个月的个人认知与社区认知。

考虑到 tensorboard 曲线属于公司财产,我不太敢贴出来。所以这篇文章我就纯尬聊了,都是些很基础的东西,偏科普性质。如有错误,还望大佬指正!


简单复盘

o1 和 r1 之间间隔了四个月,在此之前,rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘,去思考下在那探索的四个月中,为什么大家更青睐于 prm / mcts 路线,为什么沿着这条路线做不出来突破?以及到底有哪些关键点是当时所被忽略的?

base model and data distribution are all you need

在复现 r1 的工作中,qwen 和 llama 展现出了不同的趋势,qwen-base、qwen-instruct、qwen-math-base 也展现出了不同的趋势。rl 本来就是一个发掘模型潜力的方法,如果模型没有潜力,那还发掘啥呢?

同理,数据分布也一样,目前开源的复现 r1 工作已经很多了,但也不是说任何工作都能和它们技术报告一样完美复现。orz 的 57K 数据,就是一个整理的比较好的数据,训练较为稳定。正如 kimi1.5 报告中所说,我们要观测很多统计指标:每个 prompt 的多次采样的平均准确率、平均输出长度、是否不经过 cot 能直接说出答案等,甚至 prompt 的 ground truth 是否易于 verifier 进行判别(或提前统计好,或在训练过程中利用课程学习的思想动态调控)。

过去的时间内,小作坊团队们还是过于聚焦在“厨艺”上了,对“食材”的分析反倒是有所欠缺。

scaling is all you need

“结果正确”就是比“过程正确 + 结果正确”训出来的模型效果好,即使是现在也没人敢打包票吧。

r1 的成功并不能宣判 prm 的死刑,它只能说明,100W 条 orm 数据 > 1W 条 prm 数据。换个角度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值