AI大模型Cluade-3.7-sonnet体验实测

黑夜路人（heiyeluren）

已于 2025-03-11 21:40:54 修改

阅读量1.7k

点赞数 16

分类专栏： AI人工智能文章标签：人工智能

于 2025-03-11 21:35:27 首次发布

本文链接：https://blog.csdn.net/heiyeshuwu/article/details/146189699

版权

AI人工智能专栏收录该内容

31 篇文章

订阅专栏

Cluade-3.7介绍

Claude-3.7-Sonnet 是 Anthropic 公司推出的最新 AI 模型，属于 Claude 3.5 系列的升级版本。它在多个方面进行了显著改进，尤其是在推理能力、代码生成和计算机操作功能上表现突出。

以下是 Claude-3.7-Sonnet 的主要特点和功能概述：

1. 核心能力提升

推理能力：Claude-3.7-Sonnet 在推理任务中表现出色，尤其是在复杂任务的多步骤规划能力上。它能够处理长上下文任务，确保在多步骤任务中不会丢失早期信息，这对于需要长期规划的自动化任务尤为重要。
代码生成与执行：该模型在代码生成和编辑方面表现优异，支持独立编写、编辑和执行代码。在 SWE-bench Verified 编码测试中，其得分从 33% 提升至 49%，超越了大多数公开可用的模型。
计算机操作功能：Claude-3.7-Sonnet 引入了“计算机使用”功能，能够像人类一样操作计算机，包括查看屏幕、移动光标、点击按钮和输入文本。这一功能通过 API 实现，开发者可以将其集成到自动化流程中，用于文档处理、数据录入等任务。

2. 性能表现

基准测试：在 OSWorld 基准测试中，Claude-3.7-Sonnet 在仅使用截图的测试类别中取得了 14.9% 的得分，远超其他模型的 7.8%。在允许更多步骤完成任务的情况下，其得分进一步提升至 22.0%。
编码与工具使用：在 TAU-bench 测试中，Claude-3.7-Sonnet 在零售领域的得分从 62.6% 提升至 69.2%，在航空领域从 36.0% 提升至 46.0%，展现了其在复杂工具使用任务中的优势。

Cluade-3.7 实测

基本的LLM的文本交互就不测试了，基本体验过 Cluade-3.5-sonnet 的都了解，Cluade是非常强的，很多场景式比GPT4o还要强的存在，特别是Coding领域，绝对好使。

重点想要了解一下它更强，提升工作效率的替他能力。

办公常用绘图能力

Prompt：

请把下面的系统架构生成一个有层次结构的框图，然后好看一些。

电商系统架构

接入端

消费者客户端：包括iOS应用、安卓应用、小程序、H5、Web端等多平台购物入口
商家管理客户端：商家APP、商家Web平台等店铺管理入口
后台管理端：内部运营、客服和管理人员使用的Web后台

消费者端

商品服务：商品浏览、搜索、分类导航、商品详情、评价系统等
交易服务：购物车、下单流程、支付系统、订单管理、退换货系统等
会员服务：账号管理、个人中心、收货地址、会员等级、积分体系等
社交功能：商品分享、用户评论、问答社区、内容种草等
营销工具：优惠券管理、秒杀活动、拼团、直播带货等

商家端

店铺管理：店铺信息设置、店铺装修、经营分析等
商品管理：商品发布、上下架、库存管理、分类管理等
订单管理：订单处理、发货管理、退换货处理等
客户管理：客户数据、客户分群、客户服务等
营销中心：促销活动创建、优惠券发放、直播管理等

平台管理端

运营控制台：平台数据看板、流量分析、转化分析等
商家管理：商家入驻审核、商家评级、违规管理等
内容管理：首页推荐、banner管理、活动页面等
风控系统：交易风险监控、账号安全、内容审核等
客服系统：工单管理、在线客服、投诉处理等

商业智能引擎

用户画像：用户行为分析、兴趣标签、购买偏好等
推荐系统：个性化商品推荐、相关商品推荐、猜你喜欢等
定价策略：动态定价、竞品分析、价格监控等
库存优化：销量预测、补货建议、库存周转分析等
反欺诈系统：异常订单检测、账号风险评估等

数据平台

数据采集：用户行为数据、交易数据、商品数据等采集系统
实时计算：实时数据处理、实时指标统计等
离线计算：大数据批处理、数据仓库、数据分析等
数据可视化：自定义报表、数据大屏、业务监控等

营销平台

活动管理：促销活动规则配置、活动效果分析等
营销工具：优惠券系统、积分商城、会员特权等
全渠道营销：站内推广、站外投放、社交营销等
用户增长：新客获取、用户留存、用户活跃度提升等

内容管理平台

商品内容：商品信息模板、商品详情编辑工具等
营销内容：banner制作、专题页面生成工具等
内容审核：商品描述审核、用户评论审核等
内容资源库：图片素材库、视频素材库、文案模板等

中间件服务

消息系统：站内消息、短信通知、推送服务等
支付中间件：多支付渠道集成、支付流程管理等
搜索引擎：全文检索、智能搜索、搜索分析等
缓存服务：热点数据缓存、分布式缓存等
分布式服务：服务发现、负载均衡、服务治理等

技术架构

微服务框架：服务拆分、API网关、服务注册与发现等
安全框架：身份认证、权限控制、数据加密等
开发工具链：持续集成、持续部署、代码质量管理等
监控系统：系统监控、性能监控、异常报警等

基础设施

计算资源：服务器、容器、云平台资源等
存储系统：关系型数据库、NoSQL数据库、对象存储等
网络设施：CDN、负载均衡、安全防护等
灾备系统：数据备份、容灾方案、高可用策略等

输出结果如下：

Prompt：

把上面系统架构按照层次结构和逻辑，生成一个思维导图

测试了几次，目前画树状图不是太好：

图片识别能力

主要是针对它的多模态处理能力，重点是图片识别能力。分别测试了建筑物、影视剧画面、手写数学公式识别等场景。

测试Case1：识别建筑物

测试Case2：识别影视剧场景

识别成功场景：

识别成功场景

影视剧识别失误的场景

公式识别场景：

总结

Claude 3.7 Sonnet 作为 Anthropic 公司的最新 AI 模型，在推理能力、代码生成和计算机操作方面实现了重大突破。模型在基准测试中表现优异，特别是在代码生成领域的 SWE-bench Verified 测试中显著提升，以及在 OSWorld 和 TAU-bench 测试中的出色表现。

然而，实际测试显示，虽然其在文本处理和代码生成方面表现卓越，但在系统架构图和思维导图的生成上仍有改进空间。图片识别能力表现不均衡，能够准确识别建筑物和部分影视场景，但在某些复杂场景中存在识别误差。总体而言，Claude 3.7 Sonnet 代表了 AI 技术的一次重要进步，但在图形生成和图像识别的某些方面仍有待完善。

但是，不可否认，Cluade 3.7 依然是目前蓝星最好的LLM之一！