超越GPT-4o!新王Claude 3.5 Sonnet来啦!免费使用

目录

01 比GPT-4o更智能,比Claude 3 Opus快两倍

02 最强视觉Model

03 使用Claude的新方式:Artifacts

04 安全性和透明度




Anthropic刚刚发布了全新大模型Claude 3.5 Sonnet,号称是迄今为止最智能的模型。

一文几步教你注册使用Claude 3.5 Sonnet!icon-default.png?t=N7T8https://www.zhihu.com/question/647071517/answer/3421076391

据介绍,Claude 3.5 Sonnet是即将推出的Claude 3.5系列的首个版本。



该模型在绝大多数基准评估中都超越了竞品大模型和自家前代最强Claude 3 Opus,同时在运行速度和成本上与Claude 3 Sonnet相当。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

目前,Claude 3.5 Sonnet已经在Claude.ai和Claude iOS应用程序上免费提供,Claude Pro和Team计划订户可以以更高的速率访问它。

官方地址:https://claude.ai/



此外,Claude 3.5 Sonnet还可以通过Anthropic API、亚马逊云科技Bedrock等渠道使用。

每百万个输入token的价格为3美元,每百万个输出token的价格为15美元,上下文窗口为200k token。



Anthropic表示,其目标是每隔几个月大幅度改进性能、速度和成本之间的权衡曲线。


今年晚些时候将发布Claude 3.5 Haiku和Claude 3.5 Opus。

除了开发下一代大模型,Anthropic还在开发新的模式和功能,以支持更多企业用例,包括与企业应用程序的集成。

团队还在探索诸如Memory之类的功能,使模型能够记住用户的偏好和交互历史,从而实现更加个性化和高效的体验。



01 比GPT-4o更智能,比Claude 3 Opus快两倍


Claude 3真的比GPT-4强吗?icon-default.png?t=N7T8https://www.zhihu.com/question/647113899/answer/3425719762

Claude 3.5 Sonnet在研究生水平推理(GPQA)、本科生水平知识(MMLU)和编码能力(HumanEval)方面设定了新的行业基准。



它在理解细微差别、幽默和复杂指令方面表现出显著进步,并且擅长以自然、亲切的语气撰写高质量内容。

Claude 3.5 Sonnet的运行速度是Claude 3 Opus的两倍。

这种性能提升加上实惠的价格,使Claude 3.5 Sonnet成为复杂任务的理想选择。

在内部代理编码评估中,Claude 3.5 Sonnet解决了64%的问题,优于Claude 3 Opus(解决了38%)。



Anthropic评估了Claude 3.5 Sonnet根据自然语言描述的需求,修复错误或增加功能到开源代码库中的能力。

在获得指导和相关工具后,Claude 3.5 Sonnet可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。

Claude 3.5 Sonnet可以轻松处理代码转换,这对于更新旧版应用程序和迁移代码库特别有效。

不过我们已知的是,公开测试集更难,那么针对公开测试集的人类基线应该会更低。

下表展示了Claude 3.5 Sonnet与其他模型的比较,评估基准包括推理、阅读理解、数学、科学和编码。在所有这些基准测试中,Claude 3.5 Sonnet的表现均优于之前的前沿模型Claude 3 Opus。

我们也可以看到表中Claude 3.5与GPT-4o的对比数据,除了数学方面,得分都比GPT-4o高或接近。

02 最强视觉Model

Anthropic表示,Claude 3.5 Sonnet是其最强的视觉模型,在所有标准视觉基准测试中都超越了前代Claude 3 Opus。

尤其是在需要视觉推理的任务中表现更为明显,例如解释图表、图形或从不完美的图像中转录文本,这是零售、物流和金融服务行业的核心功能。在这些领域,人工智能可以从图像、图形或插图中收集到比单独文本更多的见解。

下图展示了Claude 3.5 Sonnet与Claude 3 Opus、GPT-4o、Gemini 1.5 Pro在视觉数学推理、科学图表、视觉问答、图表QA、文件视觉QA任务中的性能比较。

03 使用Claude的新方式:Artifacts

Anthropic在Claude.ai上推出了Artifacts,这是一项扩展用户与Claude交互的新功能。当用户要求Claude生成代码片段、文本文档或网站设计等内容时,这些工件会出现在对话旁边的专用窗口中。

这创建了一个动态工作空间,用户可以在其中实时查看、编辑和构建Claude的创作,将AI生成的内容无缝集成到他们的项目和工作流程中。

Artifacts预览功能标志着Claude从对话式AI向协作工作环境的演变,并将很快扩展到支持团队协作。未来,团队将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中,而Claude则按需充当队友。

04 安全性和透明度

Anthropic表示,他们对模型进行了严格的测试,并致力于减少其被滥用的可能性。Anthropic安全团队对Claude 3.5 Sonnet在化学、生物、放射性和核(CBRN)风险、网络安全和自主能力领域进行了评估,最后将Claude 3.5 Sonnet分类为AI安全等级2(ASL-2)模型,表明它不会构成灾难性伤害的风险。

此外,作为对安全和透明度承诺的一部分,Anthropic还与外部专家合作测试和完善这一最新模型中的安全机制。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard



推荐阅读:

Claude 3真的比GPT-4强吗?

更强大Mamba-2正式发布啦!!!

黎曼猜想取得重大进展!!

  • 25
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值