Claude 3.5 重大更新!超越 Openai-o1!

        近日,Anthropic公司正式推出了两款全新AI模型:Claude 3.5 Sonnet (new) 和 Claude 3.5 Haiku。这次更新不仅显著提升了模型性能,还突破性的引入了计算机使用功能,标志着AI技术的一次重大飞跃。

Claude 3.5 Sonnet (new)

软件工程能力的行业标杆

        Claude 3.5 Sonnet (new) 在各个领域都超越了前代版本,尤其是在它擅长的编程领域和工具使用任务中取得了显著进展。

  • 在编程领域,Claude 3.5 Sonnet (new) 在 SWE-bench Verified 测试中的得分从 33.4% 提升到了 49.0%,超越了所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专门为智能体编码设计的系统。
  • 在 TAU-bench 代理工具使用任务中,Claude 3.5 Sonnet (new) 在零售领域得分从 62.6% 提升到了 69.2% ;在更具挑战性的航空公司领域得分从 36.0% 提升到了 46.0%。
  • Claude 3.5 Sonnet (new) 在发布前经过了美国 AI 安全研究所(US AISI)和英国安全研究所(UK AISI)的联合测试,确保了模型的可靠性和安全性。

革命性突破

        Claude 3.5 Sonnet (new) 最引人注目的是计算机使用功能。通过 Sonnet API,Claude 3.5 Sonnet (new) 能够像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。该功能的工作原理主要包括以下四个步骤:

  • 明确工具和任务
  • Claude选择使用工具
  • 提取工具信息,运行工具并返回结果
  • 继续使用工具直到完成任务

        Claude 3.5 Sonnet (new) 作为首个支持计算机使用能力的 AI 模型,该功能仍处于实验阶段,仍然存在一定的局限和错误:

  • 速度和准确性问题:Claude 的计算机使用仍然很慢,而且经常容易出错。
  • 操作种类有限:人们经常使用计算机执行许多操作(拖动、缩放等), Claude 还无法实现。
  • 翻书式的屏幕观察:Claude 截取屏幕视图并将它们拼凑在一起,而不是观察更精细的视频流 ,这意味着它可能会错过短暂的操作或通知。

定价信息

Claude 3.5 Sonnet (new) 的定价如下:

  • 正常使用:输入$3/100万token,输出$15/100万token
  • 命中缓存:输入$3.75/100万token,输出$0.30/100万token

        Claude 3.5 Sonnet (new) 现已正式上线于网页和 App,并支持通过 Anthropic API、Amazon Bedrock 和 Google Cloud 进行调用。

Claude 3.5 Haiku

性能与效率的完美平衡

        Claude 3.5 Haiku 是 Anthropic 最快模型的下一代版本。它在保持与前代相同成本和速度的同时,性能达到了前代最强模型 Claude 3 Opus 的水平,甚至在多项测试中超越了 GPT-4o-mini。

  • 在编程任务中,Claude 3.5 Haiku 在 SWE-bench Verified 测试中的得分达到了 40.6%,超越了多款公开可用的顶尖 AI 模型,包括原版 Claude 3.5 Sonnet 和 GPT-4o。
  • Claude 3.5 Haiku 凭借低延迟、出色的指令理解能力和更精准的工具使用能力,非常适合拿来开发用户产品、处理子智能体任务,或从海量数据(如购买记录、价格或库存信息)中生成个性化体验。

定价信息

Claude 3.5 Haiku 的定价如下:

  • 正常使用:输入 $1/100万token,输出 $5/100万token
  • 命中缓存:输入 $1.25/100万token,输出 $0.1/100万token

        AIdamoxing1Claude 3.5 Haiku 是最快、最具成本效益的模型,初期将以纯文本模型形式提供,后续将支持图像输入。

计算机使用的未来

        计算机使用技术的引入为 AI 的发展开辟了新的方向。这项技术使得 AI 能够直接与现有的软件和操作系统进行交互,类似于一个虚拟助手在用户界面上进行操作,而不再局限于模型调用预设的 API 或特定的指令。这种“计算机使用”概念不仅突破了传统的大型语言模型(LLM)的开发模式,也为用户带来了更自然的人机交互体验。随着这项技术的发展,它将迅速成熟并为用户提供更高的效率、灵活性和便利性。

### 大规模强化学习实现 DeepSeek-R1 使用大规模强化学习来提升模型的推理能力和生成质量。通过从经过强化学习训练的 DeepSeek-R1 中生成大量样本,这些样本用于指导较小模型的学习过程[^2]。相比之下,OpenAI o1 系列模型同样依赖于大规模数据集和复杂的优化算法来进行训练,但在具体的强化学习机制上可能有所不同。 对于 DeepSeek-R1 而言,强化学习不仅限于参数更新,还包括了对生成文本的质量控制。通过对生成的回答进行评分并反馈给模型,使得模型能够不断改进自身的输出效果。而 OpenAI o1 则更多地关注于如何利用预训练阶段积累的知识,在微调过程中保持较高的泛化能力。 ### MATH-500 测试中的表现 在 MATH-500 基准测试中,DeepSeek-R1 表现出色。特别是 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中全面超越了 GPT-4o 与 Claude-3.5-Sonnet(AIME 得分 28.9%,MATH 得分 83.9%)[^4]。这表明即便是在相对较小的模型尺寸下,通过有效的知识蒸馏技术也可以获得非常优秀的性能。 至于 OpenAI o1-mini,在多数情况下被更大版本的 DeepSeek-R1 所超过。具体来说,DeepSeek-R1-32B 和 DeepSeek-R1-70B 显著超出了 OpenAI-o1-mini 的成绩[^1]。这种差异反映了不同架构设计和技术路径之间的区别,同时也说明了适当调整模型结构可以带来更好的实际应用价值。 ```python # 示例代码展示两个模型在特定任务上的性能对比 def compare_performance(model_a, model_b): results = { "model": [], "score": [] } # 模拟运行两者的评测流程 result_model_a = evaluate_on_math_500(model_a) result_model_b = evaluate_on_math_500(model_b) results["model"].extend([str(model_a), str(model_b)]) results["score"].extend([result_model_a, result_model_b]) return pd.DataFrame(results) df_comparison = compare_performance('DeepSeek-R1', 'OpenAI_o1') print(df_comparison) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值