【AI前沿】Claude 推出全新「思考工具」，提升复杂任务处理能力

本文链接：https://blog.csdn.net/qq_42164483/article/details/146433469

2025年3月20日，Anthropic 宣布了一项针对旗下大型语言模型 Claude 的重要更新：推出名为“思考（think）”的新工具。这一工具旨在帮助 Claude 在处理复杂问题、长链工具调用以及政策合规性任务时进行结构化的“停顿与反思”，显著提高其推理性能和决策一致性。

所谓“思考工具”，顾名思义，就是为 Claude 提供一个专门的空间和步骤，让它在执行复杂任务过程中暂停下来进行更深入的自我思考，而不是急于直接给出行动或答案。具体而言，“思考工具”使 Claude 能够：

尽管与此前推出的“扩展思维（extended thinking）”功能有相似之处，但两者的使用场景截然不同。“扩展思维”适用于相对简单的任务，在回答用户之前提前思考并制定行动计划，而“思考工具”则更适用于复杂、动态的环境，强调模型实时评估新信息，修正或加强行动决策。

Anthropic 团队使用了τ-bench（一个模拟真实客户服务对话场景的标准化评测工具）来验证这一工具的实际表现。在航空和零售两大客户服务领域，Claude 在应用“思考工具”后表现出了显著的进步：

在这里插入图片描述

配置	pass^1	pass^2	pass^3	pass^4	pass^5
思考工具+优化提示	0.584	0.444	0.384	0.356	0.340
单独思考工具	0.404	0.254	0.186	0.140	0.100
扩展思维	0.412	0.290	0.232	0.192	0.160
基线	0.332	0.206	0.148	0.116	0.100

以上数据表明，在政策复杂、场景严苛的航空领域中，搭配优化提示的“思考工具”性能提升最为显著，这显示模型能够有效地从具体的思考示例中获益。

此次发布尤其强调了使用明确、领域特定的提示（prompting）的重要性。Anthropic 在测试中发现：

这种差异主要源于特定领域政策的复杂性，以及模型对于示例引导的依赖程度。在航空领域这样政策复杂的场景中，Claude 更需要通过明确示例来引导其思维流程。

除了客户服务场景，Anthropic 在软件开发基准 SWE-bench 中也验证了“思考工具”的有效性。添加“思考工具”后，Claude 3.7 Sonnet 模型取得了0.623的最佳性能，相比未使用该工具的基线配置，平均性能提升了约1.6%。

这种提升源于模型能够在进行修复代码和测试结果分析时更加细致地思考，提出多个备选方案并谨慎选择最优解法。

Anthropic 同时提供了一系列最佳实践指导：

但需要注意，“思考工具”并非万能，对以下场景并无显著效果：

Claude 团队建议开发者：

值得强调的是，“思考工具”的实现复杂度极低，不会对现有系统造成干扰，且对性能开销也很小，除非模型主动调用该工具，否则不会产生额外负担。

Anthropic 此次发布的“思考工具”体现了一种新的发展趋势，即不再只是要求模型快速提供答案，而是强调模型在给出回应前进行更深入的自我检查和验证。这种方式有助于提高模型决策的稳健性、透明度和一致性，为构建更加可靠的 AI 系统提供了坚实基础。

随着模型复杂性和实际应用场景的不断拓展，这种“停下来想一想”的新模式无疑会在未来的AI工具开发中扮演越来越重要的角色。