GPT-4 被全面超越了!

你好,我是坚持分享干货的 EarlGrey,翻译出版过《Python编程无师自通》、《Python并行计算手册》等技术书籍。

如果我的分享对你有帮助,请关注我,一起向上进击。

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~

b81b0fd9a6592d8118c5178abbdb5b1f.png

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供200k上下文窗口,并且接受超过100万token输入

Gemini 1.5 Pro:嗯?

388aad324e34066a4ffde552d4ad6cfe.jpeg

目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)

8aa01d6bf7f8f8967e49b05fda0e2056.png

另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。

46e1e1bb08da55599b67d583c9fd5e83.png

不过奥特曼可能还在烦马斯克的诉讼……

b743d06a3e499ecdbd23c640b10d4fb4.png

最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。

1e69863cc5cd848a6f0fc2bfdde43df9.png

首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:

dec58f6be16d798cf6d82a78956b912c.png

还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。

d39385741bffab133c6f7596f5a414a9.jpeg

对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C - Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。

7f4c157d10ee9a95c15ed140037d156b.png

他认为,真正区分模型性能基准的是MATH and GPQA

643a17da8cba141f0c523e3d67541a6c.png

另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低

b665d5bd38efde9aad6ed07626596a6d.png

在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。

7333802ac28a87d1ce4964c84f1ed665.png

还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

  • 大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;

  • 中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;

  • 小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入

178a924ab6e656091b18e15291f1f0a0.jpeg

对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。

9fd5ff0ec13e70fa9c5c5c14aca2a98a.png

第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:

e7c4349986e450ac92560788c29ad69a.gif

底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。

1294fae4ecf1b0adf915d8ea85af37df.png

然鹅,可能是人太多的原因,尝试了几次都显示“Failed”

c8f4304cce79119efda4d4f4e2c61657.png

不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:

4d19f2590c99c06cd448e1f0747cfe8f.png

还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了

953d8cd2e502ee28c3c530e8aed2d249.png

在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。

cace83e5c22ba5800530a8c98d7f3263.png

还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:

03fd49cada38a645ef6cd6810d344ec4.png

初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?

87ad2b5f96d77c5030f188954dbe7738.jpeg

好了,感兴趣的朋友,可以戳下方链接体验啦~

https://claude.ai/

参考链接:
[1]https://www.anthropic.com/news/claude-3-family
[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1

本文分享自量子位

- EOF -

给大家推荐 Tailwind CSS 的开发团队在开源版的基础上,设计了官方的组件库,包含有 500 多个精心设计的组件和 10 套网页模板。官网单独购买的话,要快 300 美金,折合接近 2500 块。

但是如果大家一起共享的话,只需要不到 50 块就可以享受同官网版本相同的服务了。有兴趣的小伙伴可以前往淘宝详情页了解。

65d9c5dce92961f3553f4d1e2186b42d.png

扫码后复制链接到浏览器或淘宝内打开即可

推荐阅读  点击标题可跳转

1、Python 项目工程化最佳实践

2、Python 可以比 C 还要快!

3、streamlit,一个超强的 Python 库

4、豆瓣8.9分的C++经典之作,免费送!

5、Python 3.12 版本有什么变化?

回复下方「关键词」,获取优质资源

回复关键词「 pybook03」,领取进击的Grey与小伙伴一起翻译的《Think Python 2e》电子版

回复关键词「书单02」,领取进击的Grey整理的 10 本 Python 入门书的电子版

👇关注我的公众号👇

告诉你更多细节干货

f2fa932672d3e011b43b5ac9a2c1fe14.jpeg

欢迎围观我的朋友圈

👆每天更新所想所悟

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值