距离DeepSeek-V3开源不到一个月,DeepSeek刚刚又开源了全新推理模型DeepSeek R1、DeepSeek R1-Zero,全面提升推理能力,效果媲美o1。
此前,DeepSeek-R1预览在LiveCodeBench上评估的表现接近 o1-Medium,提供 SOTA 推理性能!
从DeepSeek-V3技术报告,V3的推理能力蒸馏自R1系列模型:
引入了一种创新的方法,将长链推理(Chain-of-Thought, CoT)模型(特别是DeepSeek R1系列模型之一)中的推理能力提取出来,并将其注入到标准的大型语言模型(LLMs)中,尤其是DeepSeek-V3。
https://huggingface.co/deepseek-ai/DeepSeek-R1-Zero
https://huggingface.co/deepseek-ai/DeepSeek-R1
来源 | PaperAgent