DeepSeek上线类o1模型——DeepSeek-R1-Lite

2024年11月20日,DeepSeek全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。
可登录官方网页 (chat.deepseek.com),开启与 R1-Lite 的对话体验。
在这里插入图片描述
该模型采用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。
该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

效果

分别公布了在6个评测集上,与其他5个模型的比较,同时添加了评估方式(例如AIME的 pass@1),整体看下来算公正。
在这里插入图片描述
以下是kimi k0-math的评估集结果:
在这里插入图片描述
评估集、数值出入较大,不太好比。

但以o1-preview的AIME的分数作为锚点,在AIME上,k0-math弱于o1-preview,而o1-preview弱于DeepSeek-R1-Lite 。可以初步推理出k0-math弱于DeepSeek-R1-Lite。

不仅如此,DeepSeek-R1-Lite已经上线,而k0-math不知道啥时候上线,只看到PR文。。。

测试

“DeepSeek”中有几个e

开场暴击
在这里插入图片描述

考研题

在这里插入图片描述
中间有一大串思维链过程,很适合模型蒸馏hhh
从思维链中看到,有一些自我反思过程
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖头鱼爱算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值