序言
随着DeepSeek的出现,AI技术的创新与进步迎来了前所未有的加速。各大公司纷纷加快了发布新模型的步伐,今天,Anthropic也推出了其最新的模型——Claude 3.7 Sonnet,并迅速霸占了多个榜单的榜首。这不仅是技术领域的一次突破,更是AI行业竞争格局的一次重要变革。那么,这款新模型的实际效果究竟如何呢?今天我们就一起来深入探讨,看看它是否如预期般强大。
Anthropic的最新模型终于来了!
2025年2月25日北京时间凌晨,OpenAI的竞争对手——Anthropic公司发布了其最新模型Claude 3.7 Sonnet。
Claude 3.7 Sonnet and Claude Code \ AnthropicToday, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model generally available on the market.https://www.anthropic.com/news/claude-3-7-sonnet这款模型是史上首个“混合推理模型”,能够根据需求灵活切换近期流行的“深度思考”模式与常规的快速推理模式,为用户提供全新的体验。更令人兴奋的是,它也可以通过AWS的Amazon Bedrock平台进行使用。
Anthropic’s Claude 3.7 Sonnet hybrid reasoning model is now available in Amazon Bedrock | AWS News Bloghttps://aws.amazon.com/jp/blogs/aws/anthropics-claude-3-7-sonnet-the-first-hybrid-reasoning-model-is-now-available-in-amazon-bedrock/此外,Anthropic还发布了其代理型编码工具“Claude Code”的预览版,为开发者提供了更多的选择和便利。
发布① Claude 3.7 Sonnet
目前,Claude 3.7 Sonnet已经在Claude.ai平台上线,并且即使是免费计划用户也可以使用。
用户现在可以选择不同的思考模式,根据需要在“深度思考”模式和常规的快速推理模式之间进行切换,以便更好地满足不同场景下的需求。
该API现已在Anthropic API、Amazon Bedrock和Vertex AI平台上提供,用户可以通过这些平台进行访问和集成。
什么是“混合推理”?
Claude 3.7 Sonnet是史上首个“混合推理模式”,可以选择使用传统的“标准模式”和“扩展思考模式”。
- 标准模式:相当于前版本Claude 3.5 Sonnet的升级版
- 扩展思考模式:在复杂任务或编程等方面提升性能
在这次的模型开发中,Anthropic采取了以下措施:
- 通过API的使用,可以调整思考时的“预测”令牌数,以控制速度与质量的权衡。
- 在模型的开发过程中,更注重与现实世界任务的相似度进行学习,而非单纯的竞争性问题。
Claude在编程能力上的优势已经获得了广泛的认可,当然,作为AI代理,它也在进行着Claude 3.5 Sonnet和OpenAI o1的提升和完善。
(来源:Anthropic官方网站)
关于扩展思考,以下的公告中提供了详细的介绍。
此外,若要通过API使用扩展思考模式,请参考以下文档。
输出令牌的上限也得到了大幅扩展。
价格值得关注!
API使用时的价格与前版本Claude 3.5 Sonnet相同,按输入输出令牌计费。对于思考模式来说,这是值得关注的。
(来源:Anthropic官方网站)
发布② Claude Code
这是同时发布的代理型编码工具。作为研究性预览,GitHub仓库已经公开,您可以进行试用。
大致可以实现以下功能。可以说这是类似于最近流行的Devin等工具:
- 代码的搜索与读取
- 文件编辑
- 测试的创建与执行
- 提交与推送到GitHub
- 使用CLI
另外,Claude Code的目标是通过帮助开发者理解模型的使用方法,从而促进Claude本身的模型改进。
发布③ 从Claude.ai直通GitHub
此外,Claude官方聊天现已支持将GitHub作为可连接的数据源,包括免费计划。
虽然以前也可以连接到 Google 云端硬盘,但现在在参考自己的代码库进行问答等方面会更加容易呢!
实际使用感受
我通过Claude.ai尝试了扩展思考模式,解答了三个稍微复杂的数学问题。
与其他公司的思考模型一样,在推理过程中会显示思考过程。
电影馆的营业时间表和卫生规则相关问题的解答:
## (问1)关闭时间的计算
当前的时间表:
- 上映时间:40分钟
- 清扫时间:20分钟
- 一个周期:60分钟
- 一天上映12场(9:00~21:00)
新的卫生规则下的时间表:
- 上映时间:40分钟
- 消毒时间:10分钟(新增)
- 清扫时间:20分钟(包含换气10分钟)
- 一个周期:70分钟
为了保持12场上映:
- 准备时间:30分钟
- 上映12场:12场 × 70分钟 = 840分钟
- 总计:30分钟 + 840分钟 = 870分钟 = 14小时30分钟
从8:30开馆开始,14小时30分钟后是23:00。
## (问2)上映次数的计算
新的条件:
- 上映时间:40分钟
- 消毒时间:10分钟
- 换气时间:10分钟(与清扫分开)
- 清扫时间:20分钟
- 一个周期:80分钟
可用时间:
- 营业时间:8:30~21:00(12小时30分钟)
- 准备时间:30分钟
- 实际可用时间:12小时
最后一场上映也必须在21:00前结束,最后一场上映后需要进行消毒、换气和清扫(共40分钟),因此最后一场上映需要在20:20结束。
时间表确认:
- 8:30~9:00:准备
- 9:00~9:40:上映第1场
- 9:40~10:20:消毒、换气、清扫
...(依此类推)
- 19:40~20:20:上映第9场
- 20:20~21:00:消毒、换气、清扫
因此,1天的上映次数是9次。
## (问3)顾客数量的减少
原来的时间表:
- 上映次数:12次
- 每场座位数:60席
- 每天的最大顾客数:12次 × 60席 = 720人
新的时间表:
- 上映次数:9次
- 每场座位数:30席(座位限制)
- 每天的最大顾客数:9次 × 30席 = 270人
顾客减少的数量:720人 - 270人 = 450人
这个问题在Claude 3.5 Sonnet中只能解出2/3题,而只有OpenAI o1等推理类模型能够全部正确回答。
现在可以说,Claude也能够处理需要复杂逻辑思考的任务了!
通过AWS Bedrock体验扩展思考API
在AWS中,模型出现在弗吉尼亚、俄亥俄和俄勒冈三个区域的列表中。我们持续尝试申请模型访问权限后,成功获得了俄亥俄区域的使用权限。
由于所有区域都显示为“仅支持跨区域推理”,因此需要推测尚未出现在控制台中的推理配置文件并进行输入。(模型的实体到底在哪里呢…?)
通过以下代码可以使用Converse API。
我尝试指定了Extended Thinking和Budget Tokens。
import boto3
import json
bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")
response = bedrock.converse(
modelId="arn:aws:bedrock:us-east-2:<AWS account ID>:inference-profile/us.anthropic.claude-3-7-sonnet-20250219-v1:0",
messages=[
{
"role": "user",
"content": [
{"text": "Hello"}
]
}
],
inferenceConfig={"maxTokens": 20000},
additionalModelRequestFields={
"thinking": {
"type": "enabled", # 启用扩展思考
"budget_tokens": 16000 # 思考用的令牌预算
}
}
)
text = response["output"]["message"]["content"][1]["text"]
print(text)
另外,虽然Bedrock的文档尚未更新,但我参考了Anthropic API的文档,并向Claude 3.7 Sonnet寻求建议,最终成功推测出了上述参数 。
由于它建议使用additionalModelRequestFields
,因此可以推测知识截止日期相对较新(至少是在Converse API发布的2024年春季之后?)。