Claude3.5 新模型发布,对标 GPT-4o,一文总结究竟升级了哪些新功能!

背景了解

北京时间2024年6月21日凌晨,AnthropicAI 宣布发布他们下一代模型的中间版本 Claude 3.5 Sonnet,它的速度比 Claude 3.0 Opus 快2倍,而价格却只有五分之一。Claude 3.5 Sonnet 的费用为输入 100 万 Token 3 美元,输出 100 万 Token 15 美元。而 GPT-4o 的输入费用为输入100 万 Token 5 美元。

AnthropicAI 随后公布了 Claude 3.5 Sonnet 各项测试数据,结果显示在研究生级别测试 GPQA、多语言理解测试 MMLU、代码测试评分 HumanEval 击败了相爱相拼多年的老对手 GPT-4o !笔者也弱弱的说一句,具体效果还要看后续的个人真实使用体验,毕竟每个模型发布时都声称自己遥遥领先。

AnthropicAI 同时宣布会在年底发布 Claude 3.5 的更快更便宜版 Haiku 以及推理能力值拉满的 Opus,可以说是磨刀霍霍向 OpenAI,我们也知道 AnthropicAI 原本也是 OpenAI 内部员工另起炉灶的产物,而不久前刚从 OpenAI 离职的首席科学家 Ilya 又宣布要搞新的大模型名曰 SSI,可以说从OpenAI 为初始的分支是越切越多

,感觉主分支要顶不住了,我们也期待着 OpenAI 能在今年也能放出大招,有什么技能也别憋着了,速速决战 AI 紫禁之巅,同时也期待着国产大模型也能早日也加入这场高手对决。

下图是大语言模型 GPT、Claude、Gemini 发布时间与能力提示图,可以看出 GPT4 一只独秀领先了许久,但是近几个月已经不得不被卷入混战之中。有竞争才能有进步,最近各大模型的价格也有所下降调整,看来最后享福的会是我们这些用户

Artifacts 新功能介绍

1. 你可以生成很多工件(例如,代码片段、文本文档或网站设计)

代码:设计:

简单来说是一个将输出的代码显示成网页的功能,所以可以将生成的HTML、JS、CSS、SVG 代码都显示出来,这意味着你可以让它做一些有意思的事情,比如:

- 画 SVG 并显示 

- 把截图变成HTML+CSS的网页 

- 做个HTML5小游戏 

- JS 版的 PPT 

- 网页小动画 

2. 可视化深度学习

将图形复制到 SVG,提供上下文,并让它为流程设置动画

也就是说 Claude 3.5 拥有了很强的动画能力,你甚至可以生成游戏,看着它玩游戏

这个功能看起来有点嚣张过头了,等后续对公众开放使用了,才能真正看出是几斤几两,是驴是马还是得拉出来遛一遛

3. 更强的图片理解能力

演示中将一个机械变压器结构图片发送给 Claude,让 Claude 在解释其原理,Claude 在解释时提供了右边的图片,不过最右边的箭头视乎指向空了,看来此项能力虽还不够强大

更新总结

一个很官方的总结

1. 性能突破:Claude 3.5 Sonnet在多项基准测试中的表现,以及它如何超越了业界巨头的竞争对手。

2. 速度革命:新模型的运行速度提升,以及这对用户体验带来的积极影响。

3. 功能革新:Claude 3.5 Sonnet 在代码编写、翻译、多步骤工作流程处理等方面的改进。

4. 自然互动:新模型在理解幽默和生成人性化文本方面的提升,以及如何让AI更加贴近人类。

5. Artifacts 新功能:Anthropic 推出的 Artifacts 功能,它如何提高工作效率。

### 不同AI模型的评测成绩和性能对比 #### DeepSeek-V3 vs Qwen2.5-72B DeepSeek-V3是一个拥有671B参数的大规模语言模型,而Qwen2.5则有72B参数。在多个基准测试中,DeepSeek-V3的表现优于GPT-4o和Claude-3.5 Sonnet,在某些特定任务上的表现尤为突出[^1]。相比之下,尽管Qwen2.5的参数量较小,但在一些自然语言理解任务上依然表现出色,并且由于其开源特性,受到了社区的高度关注和支持。 #### DeepSeek-V3 vs Llama-3.1-405B Llama-3.1具有405B参数,介于DeepSeek-V3和Qwen2.5之间。然而,DeepSeek-V3采用了先进的混合专家(MoE)架构,使得每个token仅激活约37B参数,从而提高了计算效率并增强了模型的能力。这种设计让DeepSeek-V3能够在资源有限的情况下提供更高效的推理服务,同时也保持了较高的准确性[^2]。 #### DeepSeek-V3 vs GPT-4o 作为一款闭源产品,关于GPT-4o的具体实现细节较少公开披露。但从已有的评估来看,DeepSeek-V3已经在多项指上超越了这一版本的GPT系列模型。特别是在涉及复杂语境理解和多轮对话的任务场景下,DeepSeek-V3展现了更强的理解力和响应质量。 #### DeepSeek-V3 vs Claude-3.5-Sonnet 同样属于闭源阵营的一员,Claude-3.5 Sonnet也是一款备受瞩目的大语言模型。不过根据现有资料,DeepSeek-V3无论是在参数规模还是实际应用效果方面均有所领先。尤其是在跨领域迁移学习能力以及对兴话题的学习速度等方面,DeepSeek-V3显示出明显的优势。 ```python import matplotlib.pyplot as plt models = ['DeepSeek-V3', 'Qwen2.5-72B', 'Llama-3.1-405B', 'GPT-4o', 'Claude-3.5'] params = [671, 72, 405, None, None] plt.bar(models, params) plt.xlabel('Model') plt.ylabel('Parameters (in Billions)') plt.title('Parameter Comparison of Different AI Models') plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值