Claude3 超越 ChatGPT4?

img

Today, we're announcing the Claude 3 model family, which sets new industry benchmarks across a wide range of cognitive tasks. The family includes three state-of-the-art models in ascending order of capability: Claude 3 Haiku, Claude 3 Sonnet, and Claude 3 Opus. Each successive model offers increasingly powerful performance, allowing users to select the optimal balance of intelligence, speed, and cost for their specific application.

Opus and Sonnet are now available to use in claude.ai and the Claude API which is now generally available in 159 countries. Haiku will be available soon.(今天,我们宣布推出 Claude 3 模型系列,这一系列在广泛的认知任务领域创立了新的行业标准。该系列包含三种先进的模型,按能力递增的顺序为:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每种连续的模型提供越来越强大的性能,让用户可以为特定应用选择最佳的智能、速度和成本平衡。)

据官方称:Opus 是我们最智能的模型,它在大多数常见的人工智能系统评估基准上都胜过同类产品,包括本科专业水平的专业知识(MMLU)、研究生专业水平的专业推理(GPQA)、基本数学(GSM8K)等。它在复杂任务上展现出接近人类水平的理解能力和流利程度,引领了通用智能的前沿。

img

可以发现Multilingual math(多语言数学)、Code(代码)能力较ChatGPT4.0显著提高。

订阅ChatGPT4.0:WildCard | 一分钟注册,轻松订阅海外软件服务

近乎即时的结果

Claude 3 模型可以为实时客户聊天、自动补全和数据提取任务提供支持,在这些任务中,响应必须是立即的和实时的。Haiku 是目前市场上最快速、成本效益最高的模型,适用于其所属智能类别。它可以在不到三秒的时间内阅读一篇 arXiv 上信息和数据密集的研究论文(约10,000个标记),其中包括图表和图形。

强大的视觉能力

Claude 3 模型具有与其他领先模型相媲美的先进视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图示。我们对为企业客户提供这种新的模态性能非常兴奋,其中一些客户将多达50%的知识库编码为各种格式,例如PDF、流程图或演示幻灯片。

img

更少的拒绝

以往的 Claude 模型经常会进行不必要的拒绝,这表明缺乏对上下文的理解。Opus、Sonnet 和 Haiku和前几代更少拒绝回答接近系统边界的提示词如下所示,Claude 3 模型对请求的理解更加细腻,能够识别真正的危害,并拒绝回答无害提示的频率大大降低。

img

提高的准确性 各种规模的企业都依赖我们的模型为他们的客户提供服务,这使得我们的模型输出在大规模情境下保持高准确性至关重要。为了评估模型的准确性,我们使用了大量复杂的事实性问题,旨在针对当前模型的已知弱点。Claude 3 模型将这些回答分类为正确答案、错误答案(或虚构信息)以及不确定性的承认,即模型表示不知道答案,而不是提供不正确的信息。

除了产生更可信赖的回答外,我们很快将在我们的 Claude 3 模型中启用引用功能,这样它们就可以指向参考资料中的精确句子来验证它们的答案。

img

长上下文和近乎完美的回溯 在上下文窗口大小这方面Claude 3系列模型在推出时将首先提供一个20万个tokens的上下文窗口。然而,所有三个模型都能够接受超过100万个tokens的输入,我们可能会将这一功能提供给需要增强处理能力的特定客户。

为了有效处理长上下文提示,模型需要强大的回溯能力。“Needle In A Haystack”(NIAH)评估测量模型从大量数据语料库中准确回溯信息的能力。我们通过在每个提示中使用30个随机针/问题对之一,并在一个多样化的众包文档语料库上进行测试,增强了这一基准的稳健性。

img

最后,Anthropic计划在未来几个月内频繁发布Claude 3模型系列的更新,以增强Claude 3模型的能力,特别是针对企业用例和大规模部署。

以上资料来自官网:anthropic.com/claude.

  • 23
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值