Claude 3.7 Sonnet AI 进化再升级!AWS Bedrock 最快实测

序言

随着DeepSeek的出现,AI技术的创新与进步迎来了前所未有的加速。各大公司纷纷加快了发布新模型的步伐,今天,Anthropic也推出了其最新的模型——Claude 3.7 Sonnet,并迅速霸占了多个榜单的榜首。这不仅是技术领域的一次突破,更是AI行业竞争格局的一次重要变革。那么,这款新模型的实际效果究竟如何呢?今天我们就一起来深入探讨,看看它是否如预期般强大。

Anthropic的最新模型终于来了!

2025年2月25日北京时间凌晨,OpenAI的竞争对手——Anthropic公司发布了其最新模型Claude 3.7 Sonnet。

Claude 3.7 Sonnet and Claude Code \ AnthropicToday, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model generally available on the market.https://www.anthropic.com/news/claude-3-7-sonnet这款模型是史上首个“混合推理模型”,能够根据需求灵活切换近期流行的“深度思考”模式与常规的快速推理模式,为用户提供全新的体验。更令人兴奋的是,它也可以通过AWS的Amazon Bedrock平台进行使用。

Anthropic’s Claude 3.7 Sonnet hybrid reasoning model is now available in Amazon Bedrock | AWS News Bloghttps://aws.amazon.com/jp/blogs/aws/anthropics-claude-3-7-sonnet-the-first-hybrid-reasoning-model-is-now-available-in-amazon-bedrock/此外,Anthropic还发布了其代理型编码工具“Claude Code”的预览版,为开发者提供了更多的选择和便利。

发布① Claude 3.7 Sonnet

目前,Claude 3.7 Sonnet已经在Claude.ai平台上线,并且即使是免费计划用户也可以使用。

 App unavailable \ AnthropicAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.https://claude.ai/new

用户现在可以选择不同的思考模式,根据需要在“深度思考”模式和常规的快速推理模式之间进行切换,以便更好地满足不同场景下的需求。 

该API现已在Anthropic API、Amazon Bedrock和Vertex AI平台上提供,用户可以通过这些平台进行访问和集成。

什么是“混合推理”?

Claude 3.7 Sonnet是史上首个“混合推理模式”,可以选择使用传统的“标准模式”和“扩展思考模式”。

  • 标准模式:相当于前版本Claude 3.5 Sonnet的升级版
  • 扩展思考模式:在复杂任务或编程等方面提升性能

在这次的模型开发中,Anthropic采取了以下措施:

  • 通过API的使用,可以调整思考时的“预测”令牌数,以控制速度与质量的权衡。
  • 在模型的开发过程中,更注重与现实世界任务的相似度进行学习,而非单纯的竞争性问题。

Claude在编程能力上的优势已经获得了广泛的认可,当然,作为AI代理,它也在进行着Claude 3.5 Sonnet和OpenAI o1的提升和完善。

 

(来源:Anthropic官方网站)

关于扩展思考,以下的公告中提供了详细的介绍。

Claude's extended thinking \ AnthropicDiscussing Claude's new thought processhttps://www.anthropic.com/news/visible-extended-thinking

此外,若要通过API使用扩展思考模式,请参考以下文档。

输出令牌的上限也得到了大幅扩展。

Building with extended thinking - Anthropichttps://docs.anthropic.com/en/docs/build-with-claude/extended-thinking

价格值得关注

API使用时的价格与前版本Claude 3.5 Sonnet相同,按输入输出令牌计费。对于思考模式来说,这是值得关注的。

 (来源:Anthropic官方网站)

Pricing \ AnthropicAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.https://www.anthropic.com/pricing#anthropic-api

发布② Claude Code

这是同时发布的代理型编码工具。作为研究性预览,GitHub仓库已经公开,您可以进行试用。

GitHub - anthropics/claude-code: Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex code, and handling git workflows - all through natural language commands.Claude Code is an agentic coding tool that lives in your terminal, understands your codebase, and helps you code faster by executing routine tasks, explaining complex code, and handling git workflows - all through natural language commands. - anthropics/claude-codehttps://github.com/anthropics/claude-code演示视频也已公开。

大致可以实现以下功能。可以说这是类似于最近流行的Devin等工具:

  • 代码的搜索与读取
  • 文件编辑
  • 测试的创建与执行
  • 提交与推送到GitHub
  • 使用CLI

另外,Claude Code的目标是通过帮助开发者理解模型的使用方法,从而促进Claude本身的模型改进。

发布③ 从Claude.ai直通GitHub

此外,Claude官方聊天现已支持将GitHub作为可连接的数据源,包括免费计划。

虽然以前也可以连接到 Google 云端硬盘,但现在在参考自己的代码库进行问答等方面会更加容易呢!

 

实际使用感受

我通过Claude.ai尝试了扩展思考模式,解答了三个稍微复杂的数学问题。

与其他公司的思考模型一样,在推理过程中会显示思考过程。

电影馆的营业时间表和卫生规则相关问题的解答:

## (问1)关闭时间的计算

当前的时间表:
- 上映时间:40分钟
- 清扫时间:20分钟
- 一个周期:60分钟
- 一天上映12场(9:00~21:00)

新的卫生规则下的时间表:
- 上映时间:40分钟
- 消毒时间:10分钟(新增)
- 清扫时间:20分钟(包含换气10分钟)
- 一个周期:70分钟

为了保持12场上映:
- 准备时间:30分钟
- 上映12场:12场 × 70分钟 = 840分钟
- 总计:30分钟 + 840分钟 = 870分钟 = 14小时30分钟

从8:30开馆开始,14小时30分钟后是23:00。

## (问2)上映次数的计算

新的条件:
- 上映时间:40分钟
- 消毒时间:10分钟
- 换气时间:10分钟(与清扫分开)
- 清扫时间:20分钟
- 一个周期:80分钟

可用时间:
- 营业时间:8:30~21:00(12小时30分钟)
- 准备时间:30分钟
- 实际可用时间:12小时

最后一场上映也必须在21:00前结束,最后一场上映后需要进行消毒、换气和清扫(共40分钟),因此最后一场上映需要在20:20结束。

时间表确认:
- 8:30~9:00:准备
- 9:00~9:40:上映第1场
- 9:40~10:20:消毒、换气、清扫
...(依此类推)
- 19:40~20:20:上映第9场
- 20:20~21:00:消毒、换气、清扫

因此,1天的上映次数是9次。

## (问3)顾客数量的减少

原来的时间表:
- 上映次数:12次
- 每场座位数:60席
- 每天的最大顾客数:12次 × 60席 = 720人

新的时间表:
- 上映次数:9次
- 每场座位数:30席(座位限制)
- 每天的最大顾客数:9次 × 30席 = 270人

顾客减少的数量:720人 - 270人 = 450人

这个问题在Claude 3.5 Sonnet中只能解出2/3题,而只有OpenAI o1等推理类模型能够全部正确回答。

现在可以说,Claude也能够处理需要复杂逻辑思考的任务了!

通过AWS Bedrock体验扩展思考API

在AWS中,模型出现在弗吉尼亚、俄亥俄和俄勒冈三个区域的列表中。我们持续尝试申请模型访问权限后,成功获得了俄亥俄区域的使用权限。

由于所有区域都显示为“仅支持跨区域推理”,因此需要推测尚未出现在控制台中的推理配置文件并进行输入。(模型的实体到底在哪里呢…?)

通过以下代码可以使用Converse API。
我尝试指定了Extended Thinking和Budget Tokens。

import boto3
import json

bedrock = boto3.client("bedrock-runtime", region_name="us-east-1")

response = bedrock.converse(
    modelId="arn:aws:bedrock:us-east-2:<AWS account ID>:inference-profile/us.anthropic.claude-3-7-sonnet-20250219-v1:0",
    messages=[
        {
            "role": "user",
            "content": [
                {"text": "Hello"} 
            ]
        }
    ],
    inferenceConfig={"maxTokens": 20000},
    additionalModelRequestFields={
        "thinking": {
            "type": "enabled",  # 启用扩展思考
            "budget_tokens": 16000  # 思考用的令牌预算
        }
    }
)

text = response["output"]["message"]["content"][1]["text"]
print(text)

另外,虽然Bedrock的文档尚未更新,但我参考了Anthropic API的文档,并向Claude 3.7 Sonnet寻求建议,最终成功推测出了上述参数 。

由于它建议使用additionalModelRequestFields,因此可以推测知识截止日期相对较新(至少是在Converse API发布的2024年春季之后?)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值