DeepSeek-R1重大升级！代码能力追平Claude4？（详细DeepSeek-R1新版模型测评）

最新推荐文章于 2025-06-05 16:53:26 发布

大模型真好玩

最新推荐文章于 2025-06-05 16:53:26 发布

阅读量1.5k

点赞数 21

分类专栏：人工智能大模型新技术评测文章标签：人工智能自然语言处理 RAG python deep learning MCP

本文链接：https://blog.csdn.net/weixin_42782643/article/details/148343325

版权

人工智能大模型新技术评测专栏收录该内容

8 篇文章

订阅专栏

前言

2025年5月28日，DeepSeek官方宣布DeepSeek R1模型已完成小版本升级，当前版本为DeepSeek-R1-0528。用户通过官方网站、APP或者小程序进入对话界面开启“深度思考”功能即可体验最新版本。

在这里插入图片描述

2025年5月是人工智能基座大模型领域决战紫禁之巅的关键一月！先是Qwen在开源大模型领域大放异彩，宣布自己是最好的开源大模型（Qwen3详细测评可见我的文章一文解析大模型领域当之无愧的王——Qwen3）。再到谷歌举办2025 IO 大会一口气发布了23项AI新品，从基座模型Gemini Pro到AI开发工具再到全新的AI应用全线升级。紧接着Anthropic发布旗舰版Claude的重大更新，Claude4再度成为AI编程领域不可撼动的王（Claude4详细测评可见我的文章一文全面解析Claude4核心特性）。然而细看这些基座大模型的发布报告，无一例外使用了DeepSeek-R1强化学习后训练方法（下图以Qwen3为例），可以说人工智能基座模型发展领域DeepSeek功不可没！
在这里插入图片描述
Qwen、Gemini， Claude 三缺一就差我们国产之光DeepSeek的加入了，可DeepSeek自3月发布了DeepSeek-V3-0324对DeepSeek-V3进行小版本升级以来一直没什么动静（DeepSeek-V3-0324测评可见DeepSeek-V3-0324横空出世，国产大模型还得看DeepSeek）。不知道是临近端午节假日交大招还是笔者在官方群里催促的缘故（开个玩笑）， DeepSeek终于在端午节前两天发布R1的小版本更新。虽然官方名义上是小版本更新，但DeepSeek-R1新版无论是在幻觉改善、长文本写作、还是工具调用和代码生成等领域都获得了不小提升。目前网络已经流传很多文章介绍DeepSeek-R1-0528的新特性，但很少有文章依据实质评测对其详细分析，秉持着大模型爱好者的严谨性，笔者对DeepSeek新功能进行实际测评并撰写详细报告，大家一起来看看吧~

在这里插入图片描述

一、DeepSeek-R1 测评报告

1.1 深度求索官方报告

据DeepSeek官方公告，全新的DeepSeek-R1-0528模型在推理、编程、问答和长文本编写等方面的能力有显著提升。并且新模型能够更加灵活的控制思考长度，对于简单问题模型能够以最短思考链回答。而对于一些复杂问题模型甚至能够执行长达将近20分钟的思考。更重要的是在Agent开发日益重要的当下，新版R1模型首次拥有了FunctionCalling功能（关于Function Calling能力可参考笔者文章从0到1开发DeepSeek天气助手智能体——你以为大模型只会聊天？Function Calling让它“上天入地”），也就是具备了MCP能力（不过要注意并不会在思考链中调用Function）。

官方实测数据如下图所示, 从图中我们可以看到DeepSeek-R1-0528模型在性能方面全面超越了Qwen3-235B，是目前最强开源大模型没有之一。同时在编程能力上的评分R1-0528也超过了Gemini-2.5-Pro-0506, 略低于OpenAI-O3。

在这里插入图片描述

1.2 用户实测报告

除官方评测报告，大模型民间爱好者也通过opencompass、evalscope框架在Math500、AIME25、GPQA等40多个数据集上对DeepSeek-R1-0528、Claude4等模型在文本生成，推理，编程，工具调用能力上进行评分并创建了完整测试报告，结果显示DeepSeek-R1-0528在编程能力上已经取得接近Claude4模型的性能（性能略低于Claude4）。

在这里插入图片描述

在Function Calling能力上，R1-0528具备R1旧版没有的Function Calling功能。R1-0528原生具备了更强的多工具调用能力，支持多种工具的串联、并联和自动Debug循环调用，发布的测评显示R1-0528在ifeval数据集得分达到0.8795分，Function Calling能力超过了DeepSeek-V3-0324模型和Qwen3-235B模型，甚至略微高于Claude4。这预示着R1-0528模型能够更加准确地拆解用户需求并调用外部工具，是当前AI Agent开发的不二利器。

在这里插入图片描述

二、实测案例

以上是笔者根据官方和权威团体的报告总结的DeepSeek-R1-0528相关情况，模型好不好用，要亲自测过才知道。笔者通过日常生活中常见的案例对R1-0528在编程能力、MCP能力和文本编写能力进行评测，详细情况如下：

2.1 编程能力

作为一名程序员最关心的当然是R1-0528的代码能力，R1-0528模型上线的第一时间笔者就对其代码能力进行评测。

首先以最常见的需求测试DeepSeek-R1-0528的基础前端能力，让DeepSeek-R1-0528帮我们创建一个企业响应式官网，提示词如下：

你是一名前端工程师，具备强大的html, css和js代码的编写能力。我想设计一个名为糖糖科技的流式响应企业网站，企业主要开发大模型应用产品，请帮我按照目前市面流行样式生成相应前端页面

在这里插入图片描述

从生成结果来看，无论是页面的美观程度还是模型对于用户意图的理解能力都有显著提升，一次性创建上千行代码都是家常便饭且能无错误运行。

因为正好在学习three.js的相关知识，决定测试一下R1-0528在复杂视觉页面设计的呈现效果，我使用如下提示词让DeepSeek-R1-0528写一个模拟太阳系运行的演示案例：

你具备优秀的Html,css,js编程能力，同时掌握利用three.js编写3D渲染界面的能力，请帮我编写一个模拟太阳系运行的实时演示前端

在这里插入图片描述

DeepSeek-R1-0528完美生成了模拟页面，并可以通过按钮的点击切换相机视角呈现复杂效果。我继续编写了如下提示词进一步验证DeepSeek-R1-0528的效果:

你具备优秀的Html,css,js编程能力，同时掌握利用three.js编写3D渲染界面的能力,请帮我创建一个具有复杂视觉特效的网页前端，用物理引擎模拟超继粒子星系。包括粒子星系，黑洞模拟，量子纠缠和星际旅行的选型，每项选项都可以展示响应的视觉特效。

在这里插入图片描述

DeepSeek-R1输出1200多行代码同样一次无Bug运行，同时很好理解了我们意图，实现了预期效果。

2.2 MCP能力

经过实测新版R1模型也支持无缝接入最新的Agent开发框架例如Qwen-Agent。关于Qwen-Agent笔者曾分享过两篇教程，大家可以尝试将其中Qwen模型的API调用修改为DeepSeek-R1-0528 API的调用方式

笔者借助Qwen-Agent框架，让R1-0528同时接入了多个MCP工具以及几十个外部函数混合调用，实验结果显示R1-0528能够边思考并选择要调用的函数，并在思考结束后借助MCP执行函数，最终生成了满意的报告效果。

在这里插入图片描述

2.3 文本编写能力

R1-0528模型在文本编写和角色扮演方面的性能也有提升，得益于R1-0528模型长期聚焦思考能力，现在一次性可以创建更长文本，并且前后逻辑更加连贯，编写小说时的剧情也更加丰富，对于互联网搜索得到的信息整合能力也有加强，能够创建图文并茂的分析报告，以下是笔者尝试“男性面膜市场”的长文本报告编写，可以看到R1-0528的报告风格更流畅，避免一眼AI的尴尬！

在这里插入图片描述

三、总结

以上是我对DeepSeek-R1-0528全面测评！DeepSeek-R1-0528模型的强大性能不禁让人怀疑，难道说深度求索在5月Google发布Gemini2.5和Anthropic发布Claude4之后才姗姗来迟是有意为之？毕竟有实力就是任性。不得不说深度求索两月沉淀，一开大仍然是中国第一，世界顶流。同时更验证了一个公司只有脚踏实地的技术沉淀才能做到屹立于强敌之林而不倒。

DeepSeek-R1在探索出大模型思维链生成的新范式后不断稳步推进，向着更强大更实用的方向发展，相信未来人工智能体一定有DeepSeek的参与。以上就是我本次分享全部内容，大家阅读后感兴趣可关注一下，也可关注同名微信公众号大模型真好玩，免费分享大模型工作学习中的资料、经验和教程~