- 博客(2)
- 收藏
- 关注
原创 R1论文讲解
DeepSeek-R1-Zero首次尝试使用纯粹的强化学习(RL)来提升语言模型的推理能力,而不采用监督微调(SFT),但是其中面临了很大的问题,如等。为此,推出了DeekSeek-R1,使用少量和来进行训练,发现性能与OpenAI-o1-1217相当。冷启动:是指在模型训练的早期阶段使用的数据,通常是在缺乏丰富的历史数据或标注数据的情况下收集的。这种数据可以用于帮助模型在没有足够经验的情况下进行初步学习。
2025-03-30 19:14:11
809
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人