前言
就在前不久,Anthropic公开一项开创性的公告,其中讲述了将推出其 AI 模型的两项重大升级——Claude 3.5 Sonnet和全新的Claude 3.5 Haiku。
以及之后还将推出一项突破性的新功能:computer use,即 能像人一样使用计算机了!
声称从发布公告起,开发人员可以通过 API控制 Claude 以人类的方式使用计算机?
这是怎么一回事呢?
Claude AI模型
为了防止部分朋友们不清楚他们之间的区别,简单说一下
Claude有三种AI模型,分别是Opus、Sonnet 和 Haiku。从大到小,通常这种命名方式代表了模型的规模或性能的递减。
-
Opus:这个名称通常代表规模最大、能力最强的模型。在音乐领域,"Opus"指的是一部完整且大型的作品,所以这里可以理解为这是一个高容量、能够处理复杂任务的大型模型。
-
Sonnet:"Sonnet"是指十四行诗,虽然比Opus小,但仍然相对复杂且结构化。这可以对应中等规模的模型,具有较强的能力,但资源消耗和复杂度低于Opus。
-
Haiku:"Haiku"是一种短小的日本诗歌形式,通常只有三行,这意味着它代表了一个最小规模的模型。这个模型可能专注于处理简单、快速的任务,效率高但能力范围有限。
此前Anthropic在发布Claude 3.5 Sonnet前为了搞一波预热,还整了一段小插曲,他们发了一段谜语。
反正我看不懂,扔给它的竞争对手——ChatGPT
得出的结果经过搜索才发现是莎士比亚的第35首十四行诗,而十四行诗,其实对应的单词就是Sonnet。
Claude 3.5 Sonnet:编码革命
升级版 Claude 3.5 Sonnet在关键领域展示了令人印象深刻的改进,尤其是对于开发人员而言。该 AI 已通过行业基准测试(包括SWE-bench和TAU-bench)的验证,在代理编码、软件工程任务和工具集成方面具有增强的功能。
可以从上图数值性能中不难看出,不管是推理、还是本科的知识、还是编程能力等等,都是名列前茅。
• SWE-bench 验证性能:Sonnet 从 33.4% 跃升至 49.0%,成为同类产品中性能最高的 AI。
• TAU 基准性能:Sonnet 在特定领域的性能实现了重大飞跃,例如零售(62.6% 到 69.2%)和航空(36.0% 到 46.0%)。
SWE-bench 用于广泛的软件工程领域,专注于软件系统的性能验证和测试,特别是在开发和优化过程中。
TAU 是一个高性能计算领域的工具,用于详细分析和调优并行程序的性能,帮助识别和解决性能瓶颈问题。
GitLab、Cognition和The Browser Company等公司的开发人员报告称,使用 Claude 3.5 Sonnet 进行 AI 辅助编码和调试后,取得了显著的进步。该模型减少了错误,缩短了开发周期,并提高了工具利用率。
而新版的Claude 3.5 Sonnet,目前也在Claude官网上上线了。
像人类一样操纵电脑
最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。
Anthropic 表示,Claude 3.5 Sonnet 是首个提供 计算机使用 功能的前沿人工智能模型,目前处于公开测试阶段。目前,它仍处于试验阶段——有时很麻烦且容易出错。目前这个功能更多地是面向开发者,以便获得他们的使用反馈。
在本次公告中,官方也给出了一些demo进行测试
我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?
可以看到,只需要提出需求,Claude便会自动控制你的电脑,开始在谷歌中搜索相关信息,规划整理出来,并帮你打开日历,安排好行程
下面是完整视频👇
claude3.5 demo1
顺带提一嘴,Anthropic 更新 Claude 3.5 的同时,热门 AI 编程工具 Cursor 也成功集成了 Claude 系列模型。根据众多网友分享的截图,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!
最后有话说
官方原话,升级版 Claude 3.5 Sonnet 现已面向所有用户开放。从今天开始,开发人员可以使用 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上的计算机使用测试版进行构建。新版 Claude 3.5 Haiku 将于本月晚些时候发布。
虽然像Cluade官方所说,目前它仍处于试验阶段,成功率不会很高,也会有出错的时候。
不过这些功能的推出也为未来奠定了基础,未来 AI 不仅仅是助手,更是积极主动的合作者。
之前可能想象的那个与人工智能合作的未来好像越来越近了!
或者说"现在"?对此你有什么看法吗?
如果你想升级Claude的话,也可以看看往期文章👇
(2024 最新详细保姆级教程)手把手教你如何注册升级 Claude3 大模型,Claude pro 订阅升级教程以及防封号经验\