Claude 4 发布，目前地表最强编程 AI 诞生

大咖分享课

已于 2025-05-23 08:08:47 修改

阅读量1k

点赞数 17

文章标签：人工智能

于 2025-05-23 07:58:52 首次发布

文章版权归属TechVision大咖圈所有

本文链接：https://blog.csdn.net/nal/article/details/148153747

版权

介绍 Claude 4

今天，我们将介绍下一代 Claude 模型：Claude Opus 4和Claude Sonnet 4，为编码、高级推理和 AI 代理设定新的标准。

Claude Opus 4 是全球领先的编码模型，在复杂、长时间运行的任务和代理工作流中拥有持续的性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级，提供卓越的编码和推理能力，同时更精确地响应您的指令。

除了这些模型之外，我们还宣布：

使用工具进行扩展思考（测试版）：两种模型都可以在扩展思考过程中使用工具（例如网络搜索），从而使 Claude 能够在推理和工具使用之间交替进行以改善响应。
新模型功能：两种模型都可以并行使用工具，更精确地遵循指令，并且当开发人员授予其访问本地文件的权限时，可以显著提高记忆能力，提取和保存关键事实以保持连续性并随着时间的推移建立隐性知识。
Claude Code 现已正式发布：在研究预览期间收到大量积极反馈后，我们正在扩展开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务，并与 VS Code 和 JetBrains 原生集成，可直接在文件中显示编辑内容，实现无缝的结对编程。
新的 API 功能：我们在 Anthropic API 上发布了四项新功能，使开发人员能够构建更强大的 AI 代理：代码执行工具、MCP 连接器、文件 API 以及将提示缓存长达一小时的能力。

Claude Opus 4 和 Sonnet 4 是混合模型，提供两种模式：近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维，Sonnet 4 也面向免费用户开放。两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致：Opus 4 为每百万代币（输入/输出）15/75 美元，Sonnet 4 为 3/15 美元。

Claude 4

Claude Opus 4 是我们迄今为止最强大的模型，也是全球最佳的编码模型，在 SWE-bench（72.5%）和 Terminal-bench（43.2%）上均领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色，能够连续工作数小时——其性能远超所有 Sonnet 模型，并显著扩展了 AI 代理的功能。

Claude Opus 4 擅长编码和解决复杂问题，为前沿代理产品提供动力。Cursor称其为编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。Replit报告称，其跨多个文件的复杂更改的精度和显著改进。Block称其为第一个在其代理（代号 goose）中在编辑和调试过程中提高代码质量，同时保持完整性能和可靠性的模型。Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。Cognition指出， Opus 4 擅长解决其他模型无法解决的复杂挑战，成功处理了以前的模型遗漏的关键操作。

Claude Sonnet 4 在 Sonnet 3.7 业界领先的功能基础上进行了显著提升，在 SWE-bench 上实现了 72.7% 的出色编码效率。该模型在内部和外部用例的性能和效率之间取得了平衡，并增强了可控性，从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌，但它实现了功能和实用性的最佳结合。

GitHub表示，Claude Sonnet 4 在代理场景中表现出色，并将作为 GitHub Copilot 中新编码代理的模型引入。Manus强调了其在执行复杂指令、清晰推理和美观输出方面的改进。iGent报告称，Sonnet 4 在自主多功能应用程序开发方面表现出色，并显著改进了问题解决和代码库导航能力，将导航错误率从 20% 降至接近零。Sourcegraph表示，该模型有望成为软件开发的一大飞跃——能够更长时间地保持正轨，更深入地理解问题，并提供更优雅的代码质量。Augment Code报告称其成功率更高，代码编辑更精准，复杂任务的处理也更加细致，使其成为其主要模型的首选。

这些模型全面推进了我们客户的人工智能战略：Opus 4 在编码、研究、写作和科学发现方面突破了界限，而 Sonnet 4 作为 Sonnet 3.7 的即时升级，为日常用例带来了前沿性能。

Claude 4 模型在 SWE-bench Verified（真实软件工程任务性能基准测试）上领先。更多方法论信息，请参阅附录。

Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。有关方法论的更多信息，请参阅附录。

模型改进

除了通过工具使用、并行工具执行和内存改进来扩展思维之外，我们还显著减少了模型使用捷径或漏洞完成任务的行为。在特别容易受到捷径和漏洞影响的代理任务上，这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。

Claude Opus 4 在内存能力方面也显著超越了所有前代型号。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如，Opus 4 在玩宝可梦时能够创建“导航指南”。

记忆：当克劳德·奥普斯4号获得本地文件访问权限时，它会记录关键信息，以帮助改进游戏体验。上图所示的笔记是奥普斯4号在玩宝可梦时的真实笔记。

最后，我们为 Claude 4 模型引入了思维摘要功能，该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅在约 5% 的情况下才需要使用——大多数思维过程都足够短，可以完整显示。需要原始思维链进行高级快速工程的用户可以联系我们的销售人员，了解我们全新的开发者模式，以保留完整访问权限。

Claude Code

Claude Code 现已普遍可用，它将 Claude 的强大功能带入您的更多开发工作流程 - 在终端、您最喜欢的 IDE 中，以及使用 Claude Code SDK 在后台运行。

VS Code 和 JetBrains 的新 Beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在文件中，从而简化了您在熟悉的编辑器界面中的审阅和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，我们还发布了可扩展的 Claude Code SDK，让您能够使用与 Claude Code 相同的核心代理构建自己的代理和应用程序。我们还发布了一个示例，展示该 SDK 的强大功能：GitHub 上的 Claude Code，目前处于 Beta 阶段。在 PR 上标记 Claude Code，即可回复审阅者的反馈、修复 CI 错误或修改代码。安装方法：在 Claude Code 中运行 /install-github-app。