Claude3 官方介绍文档

介绍claude3

本文全文来自:Claude3 官方介绍文档 - 含与chatgpt4.0对比

今天,我们宣布推出 Claude 3 模型系列,它为广泛的认知任务树立了新的行业基准。该系列包括三种最先进的型号(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续型号都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

Opus 和 Sonnet 现已可在 claude.ai 中使用,而 Claude API 现已在159 个国家/地区广泛使用。

模型家族

智能的新标准

Opus 是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。

所有Claude 3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。

以下是 Claude 3 模型与我们的同行模型在多个性能基准 [1] 上的比较:

近乎即时的结果

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须立即且实时。

Haiku 是智能类别市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。发布后,我们期望进一步提高性能。

对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

强大的视觉能力

Claude 3 型号具有与其他领先型号相当的复杂视觉功能。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

更少的拒绝

以前的克劳德模型经常做出不必要的拒绝,这表明缺乏语境理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

提高准确性

各种规模的企业都依赖我们的模型来为其客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题来针对当前模型中已知的弱点。我们将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型表示它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案的水平。

除了产生更值得信赖的回复之外,我们很快还将在 Claude 3 模型中启用引用,以便他们可以指向参考材料中的精确句子来验证他们的答案。

长上下文和近乎完美的回忆

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个代币的输入,我们可能会将其提供给需要增强处理能力的精选客户。

为了有效地处理长上下文提示,模型需要强大的回忆能力。“大海捞针”(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。我们通过在每个提示中使用 30 个随机针/问题对之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

负责任的设计

我们开发的 Claude 3 系列型号不仅功能强大,而且值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和 CSAM 到生物滥用、选举干扰和自主复制技能。我们继续开发宪法人工智能等方法来提高模型的安全性和透明度,并调整我们的模型以减轻新模式可能引发的隐私问题。

解决日益复杂的模型中的偏差是一项持续的努力,我们在这个新版本中取得了长足的进步。如模型卡所示,根据问答 (BBQ) 偏差基准, Claude 3 显示的偏差比我们之前的模型要少。我们仍然致力于改进技术,减少偏见并促进我们模型的更大中立性,确保它们不偏向任何特定的党派立场。

虽然与之前的模型相比,Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据我们的负责任的扩展政策,它仍处于 AI 安全级别 2 (ASL-2) 。我们的红队评估(根据我们的白宫承诺2023 年美国行政命令进行)得出的结论是,这些模型目前带来灾难性风险的可能性可以忽略不计。我们将继续仔细监控未来的模型,以评估它们是否接近 ASL-3 阈值。更多安全细节请参见Claude 3 模型卡

更容易使用

Claude 3 模型更擅长遵循复杂的多步骤指令。他们特别擅长遵守品牌声音和响应准则,并开发用户可以信赖的面向客户的体验。此外,Claude 3 模型更擅长以 JSON 等格式生成流行的结构化输出,从而更轻松地指导 Claude 进行自然语言分类和情感分析等用例。

型号详情

Claude 3 Opus是我们最智能的模型,在高度复杂的任务上具有市场最佳的性能。它可以以惊人的流畅性和类似人类的理解能力来导航开放式提示和看不见的场景。Opus 向我们展示了生成式人工智能的外部极限

脚注

  1. 该表显示了与目前已发布评估的商用模型的比较。我们的型号卡显示了与已宣布但尚未发布的型号(例如 Gemini 1.5 Pro)的比较。此外,我们还想指出,工程师们一直在努力优化评估提示和少量样本,并为较新的 GPT-4T 模型报告了更高的分数。来源
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能的行业应用 从领域相关人工智能向通用人工智能的征途 人工智能的行业应用全文共19页,当前为第1页。 1956年,斯坦福大学John McCarthy 教授、麻省理工学院Marvin Lee Minsky 教授、卡内基梅隆大学Herbert Simont 呾Allen Newell教授(以上四位皆为图灵 奖获得者)、信息理论之父贝尔实验室的 Claude Elwood Shannon 、 IBM 公司 Nathaniel Rochester等学者在美国达特 蒙斯( Dartmouth ) 学院首次确立了 "人工智能"概念。 Research Project on Artificial Intelligence, August 31, 1955, Dartmouth (申请2个月、10个人的经费来进行人工智能研究) 人工智能的诞生 人工智能的行业应用全文共19页,当前为第2页。 报告列丼了人工智能需要研究如下七类问题 Automatic Computers How Can a Computer be Programmed to Use a Language Neuron Nets Theory of the Size of a Calculation Self-improvement (学会学习能力) Abstractions (抽象能力) Randomness and Creativity (顿悟不创新) 人工智能的诞生 人工智能的行业应用全文共19页,当前为第3页。 从国际象棋到国际围棋:任务驱劢的人工智能 David Silver, Aja Huang, et.al, Mastering the game of Go with deep neural networks and tree search, Nature, 529:484-498,2016 M. Campbell, A.J. Hoane, F.H.Hsu, Deep Blue, Artificial Intelligence,134:57–59,2002 人工智能的行业应用全文共19页,当前为第4页。 博弈系统 硬件支撑 数据/知识支持 人工智能劣力 Deep Thought and Deep Blue 大型机IBMRS/6000 SP, 250万围棋局面/秒的搜索 能力(最大峰值330万/秒) 200万棋局 约8000种规则 穷丼搜索 AlphaGo 服务器集群,1920 CPUs、 280 GPUs、Tensorflow软 件结构 唯一规则:对获胜的棋 局加以奖励 16万与业棋谱呾3000 万自我对弈棋谱 深度学习:视觉感知 强化学习:better than before 蒙特卡洛树搜索:随机+ 精准 从国际象棋到国际围棋:任务驱劢的人工智能 注:11月23日,日本超一流棋手赵治勋九段不新一代人工智能围棋程序DeepZenGo对决三局,以2:1取胜 人工智能的行业应用全文共19页,当前为第5页。 须臾变化: 从规则驱劢(深蓝)到数据驱劢(AlphaGo) 的跃变 即从数据中学习规则,而丌依赖于手工构造的规则,使得智能行为具有一定 的推广能力 从自顶向下决策(规则依赖)到自下而上决策(数据驱劢)的跃变 依赖规则:解释性强、规则完备性难以保证 数据驱劢:解释性差、依赖于有监督学习模式 从国际象棋到国际围棋:任务驱劢的人工智能 人工智能的行业应用全文共19页,当前为第6页。 机器在任务目标明确前提下具备超越人类智能的能力 领域相关的人工智能 海量训练数据 + 以可枚丼为核心的 解决该领域问题的学习算法 + 硬件架构 人工智能的行业应用全文共19页,当前为第7页。 跨界智能例子 领域相关的人工智能 改变领域数据:从游戏问答到 求诊问医 2016年8月东京大学医科学研究所在 IBM Watson中导入2000多万篇医学论 文,其在10分钟左右就判断出连医生也 很难判断的特殊白血病,拯救了一位60 多岁的患者的生命 改变解决领域问题斱法:从围棋 九段到节电大师 DeepMind机器学习算法通过控制谷歌公 司数据中心风扇、制冷系统呾窗户等120 个变量,帮劣谷歌公司将电力使用效率提 升了15%,开始为谷歌公司挣钱(注: 2010年全球数据中心电力消耗为2355亿 度,约占全球电力消耗1.3%。谷歌公司电 力消耗低于全球数据中心的 1%) 人工智能的行业应用全文共19页,当前为第8页。 Strong AI/Artificial General Intelligence(AGI):通用人工智能 Weak AI/Domain-specific Artificial Intelligence:领域相关人工智能 领域相关人工智能不通用人工智能 学会学习的能力 + 少量训练数

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值