国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

2024年9月12日,OpenAI的首个推理模型o1重磅发布。从该模型的命名也可以看出,o1走的路和GPT系列模型不是同一条,否则它就应该被命名为GPT-5了。

推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chain of thought)。关于思维链更详细的介绍,可以看我这篇文章:《》。

o1模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,o1模型的正确率达到了惊人的83%,作为对比,GPT-4o的正确率为13%。在Codeforces编程竞赛中,o1的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。

在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型k0-math,并没有太多的更新。但由于k0-math还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。

然而,今天文章的主角并不是月之暗面的k0-math,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite。和k0-math的宣传预热阶段不同,DeepSeek-R1-Lite是已经切切实实发布了的对标o1的国产推理模型。

关于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLMDeepSeek-Coder,以及混合专家模型(MoE)DeepSeek-V2V2.5。值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,DeepSeek-V2的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中,目前DeepSeek-V2.5模型综合排名为22名。

关于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的o1一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美o1-preview的推理效果,并为用户展现了o1没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

DeepSeek-R1-Lite初体验

目前DeepSeek-R1-Lite在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。

DeepSeek官网:https://chat.deepseek.com/

另外需要指出的是,和o1一样,DeepSeek-R1-Lite也是个纯文本模型,目前不支持解析文件。

1. 几何推理

一个圆的半径为10,在其内部随机选择两点,计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确

附上DeepSeek-R1-Lite长达61秒的思考过程。

2. 组合数学

一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?

19秒就得到了答案65769,完全正确。并且还附上了一个反向思考的验证过程,有点厉害。

3. 逻辑推理

观察以下数列,推断规律并预测下一个数字:2,6,15,31,56

这道题目,相邻数字的差值为递增的平方数4,9,16,25。所以下一个数字应该是56加36,92。回答正确

4. 真假话推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

总算有一道题难倒DeepSeek-R1-Lite了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查DeepSeek-R1-Lite的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。

作为对比,附上o1-preview的答案。

结语

在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,DeepSeek-R1-Lite已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

### 关于 DeepSeek-R1-Lite 技术文档下载、安装与使用教程 DeepSeek-R1-Lite 是一款轻量级的 AI 模型,旨在提供高效能的同时保持较低的计算资源需求。对于希望了解该模型的技术细节以及如何部署和使用的开发者而言,获取官方技术文档是非常重要的。 #### 获取技术文档 为了获得最权威的信息,建议访问官方网站或 GitHub 仓库来查找最新的技术文档。通常这些地方会包含详细的 API 参考指南、配置说明和其他必要的开发资源[^1]。 #### 下载与安装指导 针对 DeepSeek-R1-Lite 的具体安装过程可能依赖于目平台的不同而有所变化。一般情况下,可以通过 pip 或者 conda 这样的包管理工具来进行快速安装: ```bash pip install deepseek-r1-lite ``` 如果是在支持 Conda 的环境中,则可以考虑通过以下命令完成环境创建及软件包安装: ```bash conda create -n myenv python=3.8 conda activate myenv conda install -c conda-forge deepseek-r1-lite ``` #### 使用教程概览 初次使用者可以从简单的例子入手,熟悉基本功能后再逐步深入更复杂的场景应用。下面是一个基础的例子展示如何加载预训练模型并执行推理操作: ```python from deepseek_r1_lite import load_model, preprocess_image # 加载预训练好的模型实例 model = load_model('path_to_pretrained_weights') # 对输入图像数据做前处理 input_data = preprocess_image(image_path='example.jpg') # 执行预测任务 predictions = model.predict(input_data) print(predictions) ``` 此段代码展示了从加载模型到进行实际推断的过程,其中 `load_model` 函数用于初始化一个已经过训练调整过的神经网络结构;`preprocess_image` 则负责将原始图片转换成适合喂给模型的形式[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值