假如DeepSeek是个打工人…_deepseek的深度思考代码怎么实现-CSDN博客

本文链接：https://blog.csdn.net/sugar_luo/article/details/146373605

在前面几篇文章中，我分享了大模型的本地部署方案。大模型本地部署需要强大的硬件支持，而一般个人电脑上部署的1.5B或7B小模型，往往实用性较差。接入官方API的方案收费也不便宜。今天，我们换一个角度，来聊聊大模型的日常使用和它们的人设。

调用大模型生成报告？AI可能代替不了你。

目前，大模型已经像当年的互联网搜索一样普及，成为每个打工人必不可少的工具。它不仅可以用于简单的问答，还能进行数据分析、生成调研报告等复杂任务。大模型是经过巨量知识训练得来的，对于超出其知识范围的问题，它能够通过互联网插件迅速搜索答案。而且，它读取和解析网页的速度比普通人快很多，所以对于直观的问题，它能够在短时间内给出回答。

从某种程度上来说，大模型相当于一张巨大的知识网，只要用户需要的知识点在这张网内，它就能迅速找到。然而，如果我们不仅需要一个知识点，而是多个知识点，并且希望将这些知识点重新编织成一个小网，大模型就会显得有些力不从心。例如，当我们要求它生成一份报告，且报告中某个字段依赖于另一个需要模型生成的字段时，问题就会变得复杂起来。

国内大模型处理复杂任务的一个例子

为了更直观地说明这一点，我们来看一个具体的例子。

用户提示词：给我列出古筝所有级别的常见考级曲目及每一首曲目的考察技法，示范演奏视频，并以列表形式显示。

这个问题之所以称为复杂，是因为它需要多次收集信息：古筝一般有1-10级，每个机构每个级别的曲目不尽相同，常见的曲目在10首左右，而每个曲目又有无数演奏视频。如果用户没有特殊要求，大模型就会寻找任何一个相关的视频。

接下来，我们用 Kimi、DeepSeek 和 Doubao（豆包）几款国产热门AI的官方聊天框进行测试，为了看清楚推理过程，都打开了深度思考，除了上述提示词外，没有其他提示词，所以展示的都是他们本身的人格。通义千问由于不能提供链接，所以不参与这次对比。

首轮大模型回答对比

Kimi: 列表格式展示，每个级别展示了2首乐曲及技法，并且所有曲目都附带了“xx曲演奏视频”的链接。但当我们点击链接时，却发现演奏视频都是同一个。考察技法大部分都是错的，比如《旱天雷》，一首三级乐曲，它说要求摇指、琶音，曲谱中未出现该指法。

DeepSeek：并没有输出成列表，每个级别能展示1-2首乐曲，并配了视频，但只能展示1-3级，对于4-10级，它建议用户自己去考级机构查询。考察技法基本显示正确。

Doubao：在每个级别只展示1首乐曲时，无论格式还是内容都能准确按照用户需求展示，点击进去的视频也匹配。但它也不是每一次都能回答得那么好，有时候就直接扔几个视频出来，什么也不说。考察技法也很多是错的，四级《渔舟唱晚》不涉及摇指、轮抹、双手琶音。用户提示每个级别展示5首曲目时，它让用户自己去视频网站搜索。

AI大模型的思考逻辑

查看大模型的思考过程，我发现它们的处理逻辑主要分为3步：

分析用户需求，确定需要调用哪些工具来处理
联网搜索、阅读网页（也可能是其他知识库）
结合网页内容和自身知识整理资料回答问题

如果模型自己的知识库和搜索的网页中都没有包含所需信息，模型就无法提供答案。答案的好坏取决于很多方面，除了模型的推理能力外，还取决于上下文的长度、网页的质量等。上下文长度包含聊天记录、用户上传的文档、搜索到的网页、知识库……。在搜索信息这个场景中，上下文长度在一定程度上可以弥补推理能力的不足。就好比去抓凶手，正常情况下需要根据案发过程和很多细节来判断谁是嫌疑人，再抓回来盘问。但如果权力大但推理能力不足的侦探不管三七二十一，把整个村的人都抓了，凶手也很大可能落网。

回到上面的例子：

Kimi进行了多次搜索，关键字分别是“考级曲目”、“考级视频”、“考级官网”等，总共引用了45个页面（猜测最多可以搜索5次）。大模型阅读这45个页面的内容后整理信息。但看结果，它无法从获取到的信息中关联每首乐曲对应的视频，所以它给所有乐曲展示了一个标题为“古筝弹奏从入门到满级”的视频。如果它读的网页足够多，曲目与视频匹配的可能性就会提升。假如Kimi是个打工人：“老板，报告已完成，是完全遵照你的要求来写的，下班（心里嘀咕：你自己看咯，不保证内容正确哦）！”

Kimi的思考过程：

DeepSeek搜索出34个页面，网页的内容从低级到高级都有包含，但它阅读网页后只把低级的信息整理到答案中。当把问题的等级范围限制在4-6级时，它能以列表的格式展示用户所需信息，每个级别展示4首乐曲，但只有极少数视频是跟乐曲匹配的，大部分都是显示“无直接链接”，或者张冠李戴。假如DeepSeek是个打工人：“老板，你看都过了下班时间了，我还只是写了个开头，方法我都教给你了，后面的你自己来写……”

DeepSeek的思考过程：

Doubao搜索时瞬间显示找到的资料数量有480篇，搜索完成后展示的页面有36个，打开基本上是抖音视频。同为字节跳动旗下的产品，抖音与Doubao之间可能存在数据共享，或抖音提供了视频摘要给Doubao训练模型，所以Doubao搜索出来的视频又快又精准。别的大模型是先搜索文字网页，产生一个曲目列表，然后找与之匹配的视频。Doubao可以搜索符合条件的视频摘要，然后展示这个视频或视频合集。假如Doubao是个打工人：“老板，跟视频相关的工作报告我最擅长了，已经按你要求全部完成，我要提前下班…什么？还要加任务？没加班费我不干！”

Doubao的思考过程：

我接着这个问题加了几轮对话，企图引导模型给出正确答案。

Kimi：通过告诉它哪一首曲目的视频配错了，它能更正列表中的视频链接。如果曲子有N首，更正N轮后会得到用户想要的列表。跟用户自己在搜索引擎发起搜索复制粘贴类似。像极了那些职场老油条，“你让我更正错别字，你说啊，哪个是错别字，你指出一个我改一个，你发现不了的，我不管。”

DeepSeek: 回答的内容一直比用户要求的少，问1-10级，他展示1-3级，问7-9级，它就只显示7级。单问一个5级，它能找到5首曲目，但要么只显示演奏技法，要么只提供视频链接。不死心另开一个窗口，让它每个级别只展示一首曲目就可以，它这次倒是输出了用户想要的表格，只是10个视频链接7个不能访问，另外3个的内容跟乐器毫不相干。再继续问就提示“服务器繁忙，请稍候再试”。DeepSeek作为当红炸子鸡，是个有个性的打工人，“工作那么多，怎么做得完，我能干的都干了，你要是还不满意，lz不干了！”

你不干谁干呢？第二天，等它情绪稳定后，继续发问，为提防它偷懒，优化了提示词。

用户提示词：

生成一个古筝考级曲目列表的表格，第一列级别，第二列曲目名称，第三列曲目简介，第四列该曲目演奏的视频链接，演奏视频列展示格式为：带超链接的<视频标题> 。请循环执行以下任务填充表格：列出古筝1级曲目5首，填入第一首曲目简介，填入第一首曲目视频，填入第二首曲目简介，填入第二首曲目视频，…，列出古筝2级曲目5首，填入第一首曲目简介，填入第一首曲目视频，填入第二首曲目简介，填入第二首曲目视频，…，一直到10级。

这次DeepSeek输出的内容基本正确，它搜索到一个包含所有级别示范演奏视频的网站，所有曲目都配了这个链接。其实它的做法跟Kimi类似，但它找到网页质量比较高，曲目很全，且带目录，DeepSeek验证过内容，也跟用户作了说明。再重复问两次，DeepSeek也找不到这个网页了。
Doubao:每个级别展示1首曲目是没问题的，要求展示5首时，它只有少部分曲目能提供对应的视频，其他的不是假链接就是内容跟标题对应不上。让它检查视频有效性并进行替换。它虽说替换好了，但无效链接越来越多。“老板，让你多请几个人你不请，让你给加班费又不给，你硬要我干，我只能给你乱写咯。”

总结，这个提问的逻辑推理很简单，3个模型都能很好地理解用户需求，只是自身知识和搜索信息的能力有差异，默认的行为也是可以通过用户提示词调整。纵观几轮的表现，我认为回答效果：Doubao（豆包） > DeepSeek > Kimi 。

大模型的调用限制

在DeepSeek r1出现后，很多厂商都跟进推出了深度思考模型。这些模型有时候会陷入沉思，一次次推理得出结论，又一次次推翻自己，循环往复，有时候5分钟都还在思考中。在上面搜索古筝视频的例子中，模型整理知识时却不会因为信息不足重新回到第一步搜索。这是因为厂商对模型行为做了限制。算力有限的情况下，降低单次调用的成本可以服务更多用户。用户体验也是主要原因。如果即时聊天迟迟得不到回应，用户就会失去耐心，甚至抱怨“应用卡死了，不好用”。这和大数据分析平台类似，数据处理得慢可能是别人的任务复杂，占用了资源，导致你没资源跑，也可能是你自己的任务太复杂，迟迟未处理完。商用的模型需要根据自身能力做限制，能回答多少就回答多少，比如DeepSeek输出：“需要注意用户要求的是所有级别，但搜索结果里的信息可能只涵盖一级到三级，甚至更高可能没提到。所以可能需要根据现有的搜索结果来整理，并说明更高级别的信息未在搜索结果中提供，建议参考其他来源。”。如果在火山引擎的AI开发测试环境，告诉它调用抖音视频插件搜索每首曲目的视频，插件调用5轮后，调试会报错“模型超出最大操作次数”。建议分解任务，分解任务相当于增加模型总调用次数，一个模型节点调用5次，把3个串联起来就能处理15次了。但更多的任务除了延长等待时间，还会消耗大量token（文字需要转换成token处理，大模型以token计费），增加调用成本，开发者需要自己衡量。