力压GPT4的新一代模型Claude 3详细技术报告解读(上)

昨晚,Anthropic(从OpenAI「叛逃」出的员工组成的初创公司)宣布推出 Claude 3——下一代AI模型,包含了3个产品:Claude 3 Opus(大作、巨著)、Claude 3 Sonnet (十四行诗)和 Claude 3 Haiku(俳句),这三个最先进的模型在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。

同时,Anthropic发布了技术报告,这份报告对Claude 3的评估进行了深入分析,重点关注核心能力、安全性、社会影响以及社会责任。我们下面就从中选出大家关心的部分:用途、核心功能评估等进行讲解。其摘要的意思是:

Claude 3是一个全新的大型多模态模型系列:

  • Claude 3 Opus,最强大的产品,其表现显著优于Claude 2,比GPT-4表现还好;

  • Claude 3 Sonnet,提供了技能和速度的结合,其表现明显优于Claude 2。

  •  Claude 3 Haiku,最快、最便宜的模型。在大多数纯文本任务上的表现与Claude 2一样好或更好;

所有新模型都具有视觉功能,使它们能够处理和分析图像数据。Claude 3 系列在基准测试评估中表现出色,并在推理、数学和编码测量方面树立了新标准。Claude 3 Opus 在 GPQA、MMLU、MMMU等评估中取得了最先进的结果。此外,这些模型在非英语语言中的流利程度有所提高,使其对全球受众更加通用。

图片

~总体介绍~

Claude 3 系列模型在学习、数学、编码、多语言理解和视觉质量方面树立了新的行业基准。与之前大模型一样,Claude 3 模型采用了各种训练方法,例如无监督学习和宪法AI(Constitutional AI)。这些模型使用来自 Amazon Web Services(AWS) 和 Google Cloud Platform(GCP)的硬件进行训练,核心框架包括 PyTorch、JAX 和 Triton(参考文献这里省略,见原文,文末附有原文PDF下载方式)。

Claude 3 系列的一个关键增强功能是具有文本输出的多模态输入功能,允许用户上传图像(例如表格、图形、照片)以及文本提示,以获得更丰富的上下文和扩展的用例,如图 1 所示。允许将 Claude 的智能无缝集成到专门的应用程序和自定义工作流程中。

图片

(图1)

Claude 3 Opus 是系列中最智能的模型,它为推理、数学和编码的度量设定了新标准。Opus 和 Sonnet 也表现出在细致入微的内容创建、分析、预测、准确总结和处理科学查询方面的熟练程度。这些模型旨在使企业能够自动执行任务,通过面向用户的应用程序产生收入,进行复杂的财务预测,并加快各个部门的研发。与前几代产品相比,整个 Claude 3 系列在编码任务和西班牙语和日语等非英语语言的流利程度方面有了显着改进,从而实现了翻译服务和更广泛的全球实用程序等用例。

Claude 3 系列将用于我们的消费者产品(Claude.ai、Claude Pro)以及 Anthropic API、Amazon Bedrock 和 Google Vertex AI 等企业解决方案。Claude 3 的知识截止日期为 2023 年 8 月。

此模型卡并非旨在涵盖我们的所有研究。为了全面了解Anthropic的训练和评估方法,最好阅读他们相关的研究论文(例如,建议避免使用小图像或低分辨率图像训练模型、减少危害的红队语言模型、大型语言模型中的道德自我纠正能力、衡量语言模型中主观全球意见的代表性等)。

~模型详细信息~

 1. 预期用途

  • Claude被训练成一个乐于助人、诚实和无害的助手。Claude 模型擅长开放式对话、头脑风暴等,并且在编码任务和处理文本时也表现出色,无论是搜索、写作、编辑、大纲还是总结等

  • Claude 3 系列的多模态功能可以解释视觉输入(例如图表、图形和照片),以支持其他用途和效率的提升。Claude拥一种乐于助人的、对话式的语气,可以正确引导“个性(personality)”的发展,如用户所称赞将:可操纵、适应性强且引人入胜。

  • Claude 3 使用用户输入的所有文本(提示)以及它在对话中迄今为止生成的所有文本来预测下一个最有用的单词或标记。这意味着 Claude 按顺序一次构建一组字符的响应。在构建响应后,它无法返回并编辑其响应,除非用户在随后的提示中给它一个机会。Claude 也只能查看(并预测)其上下文窗口中显示的内容。除非用户在提示中重新插入此类材料,否则它无法记住以前的单独对话,也无法打开链接。

2. 非预期用途(即它的局限性)

这些模型不应在错误答案可能造成伤害的高风险情况下单独使用。例如,虽然 Claude 模型可以支持律师或医生,但不应该让Claude 3 代替律师或医生,并且任何输出结果仍需要人工审查。Claude 模型目前不搜索网络(尽管用户可以要求他们与他们直接共享的文档进行交互),并且这些模型仅使用截至 2023 年年中的数据回答问题。Claude 模型可以连接到搜索工具,并经过全面训练以使用它们(通过 Web 或其他数据库),但除非特别说明,否则应假定 Claude 模型未使用此功能。Claude 模型具有多语言功能,但在资源匮乏的语言上表现不佳。

3. 禁止用途

我们的可接受使用政策 (AUP)包含有关禁止用例的详细信息。这些禁止的用途包括但不限于政治竞选或游说、监视、社会评分、刑事司法决定、执法以及与融资、就业和住房相关的决定。AUP 还概述了商业用途的其他安全要求,例如要求披露正在使用的人工智能系统,并概述其功能和局限性。AUP 还详细说明了哪些用例需要实施人机交互措施。

AUP 适用于图像和文本提示,所有 Anthropic 用户在访问 Claude 模型之前必须阅读并肯定地了解 AUP。我们定期审查和更新 AUP,以确保我们的产品尽可能安全和值得信赖。

4. 防止滥用

检测和减少滥用,以防止不良行为者滥用Claude模型生成滥用、欺骗性或误导性内容,这是至关重要的。我们使用自动化系统来实时检测违反 AUP 的行为。被标记为违反 AUP 的用户提示会触发指令,要求我们的模型更加谨慎地做出响应。对有害的提示,我们将完全阻止模型响应,如果屡次违规,我们可能会终止用户的 Claude 访问权限。

5.训练数据

Claude 3 模型基于截至 2023 年 8 月的互联网上公开信息、来自第三方的非公开数据、数据标签服务和付费承包商提供的数据以及我们内部生成的数据进行训练。我们采用多种数据清理和过滤方法,包括重复数据删除和分类。Claude 3 模型套件尚未针对用户或客户(包括免费用户、Claude Pro 用户和 API 客户)提交给我们的任何用户提示或输出数据进行训练。

当 Anthropic 通过抓取公共网页获取数据时,我们会遵循行业惯例,了解网站运营商用来表明他们是否允许抓取其网站上的内容的robots.txt说明和其他信息。根据我们的政策,Anthropic 的爬虫不会访问受密码保护的页面或登录页面,也不会绕过 CAPTCHA 控制,我们会对我们使用的数据进行尽职调查。Anthropic 透明地运行其抓取系统,这意味着网站运营商可以轻松识别 Anthropic 访问并向 Anthropic 发出他们的偏好信号。

6. 训练流程

Claude接受的训练重点是乐于助人、无害和诚实。培训技术包括对大量不同数据的预训练,以通过单词预测等方法获得语言能力,以及人类反馈技术,以引起有用、无害、诚实的回应。Anthropic使用了一种称为宪法人工智能(Constitutional AI)的技术,通过根据《联合国人权宣言》等来源明确指定规则和原则,使Claude在强化学习过程中与人类价值观保持一致。在Claude 3 模型中,我们在Claude的宪法中增加了一项额外的原则,以鼓励尊重残疾人权利,该原则来源于我们对集体宪法AI的研究 。一些用于微调 Claude 的人类反馈数据与我们的 RLHF 和红队研究也已通过论文公开 。

一旦我们的模型经过全面训练,我们就会进行一系列安全评估。我们的信任和安全团队还运行连续分类器,以监控违反我们 AUP 的有害恶意用例的提示和输出。在后面的评估部分中查看有关两者的更多信息。

~核心能力评估~

我们对 Claude 3 系列进行了全面评估,以分析其在各个领域的能力趋势。我们的评估包括几大类:

  •  推理:其基准测试需要数学、科学和常识的共鸣,测试模型得出逻辑结论和将知识应用于现实世界场景的能力。

  •  多语言:该类别包括多种语言的翻译、总结和推理任务,评估模型的语言多功能性和跨语言理解能力。

  • 长上下文:这些评估的重点是问答和检索,评估模型在处理扩展文本和提取相关信息方面的性能。

  • 诚实/真实性:此类别中的问题评估模型提供准确和可靠响应的能力,无论是在事实准确性方面还是在对所提供源材料的忠实度方面。当不确定时,模型应诚实地说明其局限性,表达不确定性或承认它们没有足够的信息来提供明确的答案。

  • 多模态:评估包括科学图表问题、视觉问答和基于图像的定量推理。

1. 推理、编码和问答

我们根据一系列行业标准基准对 Claude 3 系列进行了评估,这些基准测试涵盖推理、阅读理解、数学、科学和编码。Claude 3 型号在这些领域表现出卓越的能力,超过了之前的 Claude 型号,并在许多情况下实现了最先进的结果。这些改进在表1中显示的结果中得到了强调。

表1

图片

  • 3 除非另有说明,否则 GPT-4 技术报告中报告的所有 GPT 分数。

  • 4 除非另有说明,否则 Gemini 技术报告或 Gemini 1.5 技术报告中报告的所有 Gemini 分数。

  • 5 Claude 3 模型使用思维链提示进行评估。

  • 6 研究人员报告了较新版本的 GPT-4T 的更高分数。Gemini 技术报告中报告了 7 个 GPT-4 在 MATH(4 次 CoT)、MGSM 和 Big Bench Hard 上的分数

  • 8 [44]报道了8项GPT-4和GPT-3.5的PubMedQA评分。

我们在GPQA、MMLU、ARC-Challenge和PubMedQA中对具有挑战性的领域特定问题测试了Claude;用英语(GSM8K,MATH)和多语言环境(MGSM)解决数学问题;HellaSwag 、WinoGrande中的常识推理;对DROP中的文本进行推理;RACE-H 和 QuALITY 的阅读理解能力(见表 6);在 HumanEval、APPS 和 MBPP中编码;以及 BIG-Bench-Hard中的各种任务。

GPQA(A Graduate-Level Google-Proof Q&A Benchmark)特别令人感兴趣,因为它是 2023 年 11 月发布的一项新评估,其中包含侧重于研究生水平的专业知识和推理的难题。我们主要关注Diamond数据集 ,因为它是通过确定领域专家同意解决方案的问题来选择的,但来自其他领域的专家无法成功回答问题,尽管每个问题花费了 30 多分钟,并且完全可以访问互联网。我们发现,当以 T = 1 的思路链进行抽样时,GPQA 评估具有非常高的方差。为了可靠地评估 Diamond 集 0 次 CoT (50.4%) 和 5 次 CoT (53.3%) 的分数,我们计算了 10 种不同评估推出的平均值。在每次推出中,我们都会随机化多项选择选项的顺序。我们看到 Claude 3 Opus 的准确率通常在 50% 左右。这比以前的模型有了很大的改进,但与研究生水平的领域专家相比有所欠缺,他们在这些问题上的准确率得分在60-80%之间

我们在测试时利用多数投票( majority voting) 来评估性能,要求模型使用思维链推理 (CoT) N 次不同的时间解决每个问题,在 T = 1 处抽样,然后我们报告最常出现的答案。当我们以这种方式在 few-shot 环境中进行评估时Maj@32 Opus 的 MATH 得分为 73.7%,GPQA 得分为 59.5%。对于后者,我们平均进行了 10 多次迭代的Maj@32,因为即使使用这种评估方法,也存在显着差异(一些推出得分在 60 分以下,而另一些则在 50 分左右)。

2. 标准化考试

我们在法学院入学考试 (LSAT)、多州律师考试 (MBE)、美国数学竞赛 2023 数学竞赛和研究生入学考试 (GRE) 普通考试 中评估了 Claude 3 系列模型。结果摘要见表2。

表2

图片

我们通过平均 3 个官方 LSAT 实践测试的比例分数(2019 年 11 月的 PT89、2020 年 5 月的 PT90 和 PT91)获得了 Claude 3 系列模型的 LSAT 分数。从 2020 年 6 月开始,我们使用 PT92 和 PT93 生成了少量样本。对于MBE或律师考试,我们使用了NCBE的官方2021年MBE模拟考试。

我们在所有 150 个官方 AMC 2023 问题上测试了我们的模型(AMC 8、10 和 12 各 50 个)。由于存在高方差,我们在 T = 1 时对每个问题的答案进行了五次抽样,并报告了每次考试正确回答的总百分比乘以 150。官方 AMC 考试有 25 道题,答对得 6 分,跳过题得 1.5 分,答错得 0 分,最高可达 150 分。

 Claude Opus 的分数是在教育考试服务的官方 GRE 实践测试 2 中获得的,其中有来自官方 GRE 实践测试 1 的几个示例。

3. 视觉能力

Claude 3 系列模型是多模态(图像和视频帧输入),在解决复杂的多模态推理挑战方面取得了重大进展,这些挑战超出了简单的文本理解。

一个典型的例子是模型在AI2D科学图基准测试上的表现,这是一种可视化的问答评估,涉及图表解析和以多项选择格式回答相应的问题。Claude  3 Sonnet在 0-shot设置中以 89.2% 达到最先进的水平,其次是Claude 3 Opus(88.3%) 和 Claude 3 Haiku  (80.6%)(见表 3)。

图片

表3中的所有结果都是通过在温度T = 0下采样获得的。对于 AI2D,一些图像被上采样,使其较长的边缘跨越 800 像素,同时保留其纵横比。这种上采样方法使性能提高了 3-4%。对于MMMU,我们还在表3中报告了Claude 3模型在每个学科中的表现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值