Claude 3超过GPT-4

Anthropic发布了新的Claude3系列模型,特别是Opus在多语言数学推理、响应速度、图像处理和上下文理解等方面超越了GPT-4。这些模型支持多模态输入,表现出强大的推理和结构化输出能力,正挑战OpenAI在AI领域的地位。
摘要由CSDN通过智能技术生成

Anthropic发布了

萨姆奥特曼和马斯克的新仇旧恨还没掰扯完

有人就开始出手了

就在昨天,也就是3月4日

被称为OpenAI最强竞争对手的大模型公司Anthropic(安思若皮克)

毫无预警地宣布推出了Claude3系列模型

距离上一代的Claude 2发布

仅仅相隔8个月

与Gemini类似

模型按照大小分为三个

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus

Claude -> 克劳帝

Haiku -> 俳句,读音:海枯

Sonnet -> 十四行诗,读音:桑内特

Opus -> 作品、作品集,读音:欧普斯

分别对应着中杯,大杯,超大杯

简单来说Opus能力最强

也最贵,而Haiku最快

这里Claude 3系列的命名采用了文艺作品体裁名

Haiku是日本俳句、Sonnet是英文十四行诗

Opus是古典乐的作品集

根据官方官方发布的测试成绩

Opus目前全方位超越GPT-4Gemini Ultra

而且这次发布的Claude 3系列都支持了图像识别能力

以及200K、也就是20万的上下文窗口

特定场景还能提供1百万tokens的长文本输入能力

Opus和Sonnet现在已经可以在Claude

ai官网和现在159个国家的Claude API中使用

Haiku很快也将上线

特点 - 多语言数学推理比GPT-4强大

接下来我们就来详细看一下Claude 3的特点

主要内容来自于Anthropic的官网

大家可以去看原文

首先Cluade Opus号称是目前最强的大模型

在大多数大模型评估基准上都胜过了同行

包括MMLUGPQAGSM8K

需要注意的是

这还是在有几个任务是0-shot的情况下

比如MGSM

多语言数学推理这个测试集

Claude 3 Opus达到了90.7%的准确率

用的是0-shot

GPT4是8-shot,达到了74.5%

0-shot意味着大模型没有在Prompt里给任何示例

就直接被要求完成任务

而8-shot则表示在干活前

给了8个示例,所以官方的结论是

给了8个示例的GPT-4反而还打不过没给示例的Claude3

所有Claude 3模型在数据分析和预测内容创作代码生成

以及用西班牙语、日语和法语等非英语语言交流方面

都显示出了更强的能力

特点 - 响应速度挺快的

Claude Haiku是目前市场上同类大模型中性价比最高、且响应最快的

它能在短短不到三秒钟

阅读并理解arXiv上一篇包含图表和图形的信息量和数据密集型的研究论文

换算过来大约是1万Token

而且Anthropic还承诺将进一步提升它的性能表现

不过对于绝大部分工作来说

Sonnet的速度是Claude 2Claude 2.1的两倍

而且能力更高

对于一些需要迅速回应的任务

快速信息检索销售自动化方面

它的表现尤其出色

Opus的速度与 Claude 22.1相当

但是它的智能程度要高得多

在视觉能力方面

Claude 3系列模型可以追平Gemini Ultra

它们可以处理各种视觉格式

包括照片、图表、图形和技术图纸

这种多模态的能力

对于那些知识库中内容

超过50%以PDF、流程图或者PPT等不同格式存在的客户而言

会非常的有价值

特点 - 允许输入图像和文档、复杂问题会拆解

Claude 3也第一次允许图像和文档上传

和ChatGPT一样

Claude 3能够“认”出来图里的是什么东西

直接描述,回答用户的问题

令人印象深刻的是

Claude 3在分析一些复杂问题

已经能够和人一样,先拆解问题

并且交由子模型来进行调度

Anthropic的演示视频里

就举了一个需要用python模拟经济形势走向的例子

当把“分析美国十年GDP未来趋势”的任务交给Claude 3之后

Claude就默默地做了这些事

1、先打开一个名为“webview”的工具

跳到这个问题相关的资料网址

因为有多模态能力

所以能够把“看到”的信息

无论是文字还是图表

扒拉下来,用来解决问题

2、然后自己写python程序渲染趋势图

让人类看是否正确

3、最有趣的就是

网页中如果看到一个数据图表

没有明确数据的

Claude 3甚至能通过识别图像

来估算每个阶段大概数据是多少

进行还原

特点 - 不轻易拒绝用户

此外,与前几代模型相比

Claude 3系列模型减少了对用户拒绝的可能性

对于请求表现出了更精细的理解能力

能够识别真正的风险

并且明显减少了对无害提示的拒绝

特点 - 更安全了

在幻觉方面

Claude 3可以提供更可靠的答案

为了评估这一点

Anthropic采用了一大组复杂且基于事实的问题

根据模型的回复将其分类为正确答案错误或者说幻觉答案以及承认不确定性的情况

即模型宣称不知道答案

而不是提供错误的信息

Claude 2.1相比

Claude Opus在这些困难的开放式问题上

展示了两倍的准确性提升

并且减少了错误回答的比例

Anthropic宣布还将在Claude 3模型中启用引用(citations)功能

让它能够指向参考材料中的确切句子

来核实它们的回答

特点 - 上下文窗口比GPT-4大一点

这次Claude 3发布的另一个重点吸引

就是更长的上下文

虽然现在Claude 3的系列模型都将提供200K token的大小

但是对于特定用户

这三个模型都能够处理超过100万Token的输入

200k的对话长度

相当于能够单次处理超过15万英文单词

GPT-4 Turbo的上下文窗口为128k

大约是9.6万个英文单词

特点 - 记忆回溯能力完美的

我们都知道

为了有效处理长文本的上下文提示

模型需要拥有出色的记忆回溯能力

NIAH测试就是用来测量模型从海量数据中准确提取信息的能力

在NIAH的测试结果中

Claude 3Opus不但实现了几乎完美的信息回忆能力

准确率超过了99%

还能在一些情况下识别评估本身的局限性

比如它能够辨认出某个句子看起来像是人为添加进原始文本中的

特点 - 宪法人工智能、ASL-2等级

在安全性方面

Anthropic 持续开发各种方法

比如宪法人工智能(Constitutional AI)

来提升模型的安全性和透明度

用来对抗可能由新模式引起的隐私问题

Anthropic宣称

虽然在生物学知识网络安全知识自主性方面的关键指标上

Claude 3系列模型比以前的模型有了进步

但是根据他们的负责任规模扩展政策

模型目前仍然处于人工智能安全等级 2(ASL-2)的阶段

这些模型目前几乎没有带来灾难性风险的可能

特点 - 复杂指令很靠谱

此外

Claude 3模型在遵循复杂的、多步骤的指令方面表现更出色

特别擅长遵守品牌的风格

特点 - 结构化输出很完美

此外

Claude 3模型在生成常见的结构化输出

比如JSON格式方面,表现更佳

因此使用Claude 3进行自然语言分类情感分析等场景时

会更加简单

三款模型简单对比

那对于Claude 3这三个模型来说呢

Opus能力最强,也最贵

具有强大的推理数学编码能力

接近人类的理解能力

可以轻松应对各种开放式提示和未知场景

并且提供出色的流畅度

Sonnet在能力和速度之间取得了一个理想的平衡

适合企业级应用

能够更长时间稳定的运行

Haiku是其中最快速、最轻便的模型

能够提供几乎即时的响应能力

它可以极快地解答简单的问题和响应请求

比较适合于创建互动型的AI应用

可以达到流畅的AI体验

Opus Sonnet现在已经在Anthropic的API中开放使用

Sonnet 可以免费体验

Opus目前只面向Claude Pro订阅用户开放

Haiku将很快推出

同时Sonnet也已在Amazon Bedrock上线

同时在Google CloudVertex AI Model Garden 中开始私密预览(private preview

不久也会推出OpusHaiku

网友试用情况

那么Claude 3的实际使用效果怎么样呢?

国内已经有网友试用过了Opus

认为它在推理能力方面确实有很大提升

初中的理科题基本都能横着走

但是高中水平还是达不到


image-20240305220141501

比如对这道用补集法算的概率题

GPT4的错误率高达50%

但是Claude3 Opus的准确率可以达到90%

image-20240305220151569

对于这道算术题,也可以准确的答对

并且给出分析和计算步骤

image-20240305220201343

对于物理题可以直接上图,全对

image-20240305220208175

化学题也是一样

image-20240305220214083

甚至尝试了一道中文的语法逻辑怪题

也没有难倒Claude 3

image-20240305220224557

在视觉多模态方面

给出一个专业的科学示意图

Claude 3可以清晰的分析出图中所包含的科学专业名词

加以解释

并且对图中的科学概念和场景进行描述

image-20240305220231515

给出一个网页的截图

可以直接还原这个网页的源代码

image-20240305220238261

以图猜地名更是不在话下

image-20240305220251638

甚至朋友给他发了张照片

提前说明自己不会骑电瓶车

Claude 3也能够仅靠图片

准确的判断出来

整体上来说

多模态的能力确实跟GPT4V差不多

对中文的支持也不错

算是弥补了一直以来Claude的短板

不过

虽然这次Claude 3的发布可圈可点

一直在追赶GPT-4

但是AnthropicOpenAI还是有着不小的差距

尤其是在商业化方面

当然,这次Claude 3发布后

压力势必要给到OpenAI萨姆奥特曼

网上也有网友调侃

是时候可以放出GPT-5

  • 18
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值