Claude 3.5 Sonnet模型发布，对比ChatGPT4o孰强孰弱

逐梦苍穹

已于 2024-07-16 23:05:36 修改

阅读量5.3k

点赞数 57

文章标签： python 语言模型 Claude 3.5

于 2024-07-16 23:04:16 首次发布

本文链接：https://blog.csdn.net/qq_60735796/article/details/140446037

版权

Anthropic 这家生而为打击 OpenAI 安全问题的公司，正式发布了Claude 3.5 Sonnet模型！

用官网的话就是：

今天，我们推出了 Claude 3.5 Sonnet，这是我们即将推出的 Claude 3.5 型号系列中的第一个版本。Claude 3.5 Sonnet 提高了智能的行业标准，在广泛的评估中优于竞争对手型号和 Claude 3 Opus，其速度和成本与我们的中端型号 Claude 3 Sonnet 相当。

Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用程序上免费使用，而 Claude Pro 和 Team 计划的用户则可以更高的速率限制访问它。它还可通过 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 使用。该模型每百万个输入代币收费 3 美元，每百万个输出代币收费 15 美元，代币上下文窗口为 20 万个。

这个图展示了不同版本的Claude模型在智能水平（纵轴）和成本（横轴）上的表现。具体来说，图中有四个点，分别代表Claude 3的三个版本和Claude 3.5的一个版本。

各点的解释：

Claude 3 Haiku：
- 智能水平和成本都相对较低。
- 适合预算有限的应用场景。
Claude 3 Sonnet：
- 智能水平比Haiku更高，成本也有所增加。
- 提供了更高的智能水平，但成本相对适中。
Claude 3 Opus：
- 智能水平更高，成本也相应增加。
- 适合需要更高智能水平且预算较高的应用场景。
Claude 3.5 Sonnet：
- 相比Claude 3 Sonnet，Claude 3.5 Sonnet在智能水平上有显著提升，成本增加。
- 表示新的版本在智能水平上有较大改进，同时价格也随之上升。

Claude 3.5 Sonnet 在研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 方面树立了新的行业基准。它在把握细微差别、幽默和复杂指令方面都有明显进步，在以自然、亲切的语气撰写高质量内容方面更是出类拔萃。

在一次内部代理编码评估中，Claude 3.5 Sonnet 解决了 64% 的问题，优于 Claude 3 Opus 的 38%。我们的评估测试了该模型在自然语言描述所需改进的情况下修复漏洞或为开源代码库添加功能的能力。在获得指导和相关工具后，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，并具备复杂的推理和故障排除能力。它能轻松处理代码翻译，因此在更新传统应用程序和迁移代码库时特别有效。

请看官方对比图：

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型，在标准视觉基准测试中超过了 Claude 3 Opus。在解读图表等需要视觉推理的任务中，这些阶跃式的改进最为明显。Claude 3.5 Sonnet 还能从不完美的图像中准确地转录文本--这是零售、物流和金融服务的核心能力，在这些领域，人工智能可能会从图像、图形或插图中获得比单纯从文本中获得更多的洞察力。

https://youtu.be/dhxrHvgXpSM