Claude3

王大明白

于 2024-07-27 02:56:12 发布

阅读量2

点赞数

文章标签：人工智能深度学习

大模型的纯文本方向，已经卷到头了？

昨晚，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。

该系列包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中，能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic 表示，Claude 3 Opus 拥有人类本科生水平的知识。

Anthropic发布Claude 3模型，性能超过GPT-4,AI 初创公司 Anthropic 由 OpenAI 前高管创立，“背靠” 谷歌，堪称是 OpenAI 在 AI 领域最大的竞争对手。刚刚他们宣布发布了 Claude 3 模型系列，该模型系列包含 3 个模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，Anthropic 声称这个模型系列在推理、数学、编码、多语言理解和视觉方面树立了新的行业标准。

下面是关于 Claude 3 模型系列的官网介绍。

今天，我们荣幸地宣布推出 Claude 3 模型系列，这是一个在多种认知任务中树立了新行业标准的系列。该系列包括三款顶尖模型，按能力递增依次为：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一款模型都比前一款性能更强，用户可以根据自己的应用需求，选择最适合的智能程度、速度和成本平衡。

Opus 和 Sonnet 目前已经可以在 claude.ai 和 Claude API 上使用，这些服务现在已覆盖 159 个国家。Haiku 模型也将很快推出。

Claude 3 模型系列

Claude3_数据

智能的新标杆

我们的明星产品 Opus，在大多数 AI 系统的常见评估基准上都超越了其他同类产品，这些基准包括本科水平的专家知识（MMLU）、研究生水平的专家推理（GPQA）、基础数学（GSM8K）等。在处理复杂任务时，它展现出近乎人类的理解能力和流畅度，是通用智能领域的佼佼者。

所有 Claude 3 系列模型在分析预测、创造富有细腻感的内容、代码生成，以及使用西班牙语、日语和法语等非英语交流方面的能力均有明显提升。

以下是我们的 Claude 3 系列模型与其他同行在多个能力基准上的对比情况：

Claude3_人工智能_02

近乎即时的响应

Claude 3 系列模型能够实时支持在线客户聊天、自动完成和数据提取任务，保证响应的即时性和实时性。

在其智能类别中，Haiku 是市场上最快速、性价比最高的模型。它能够在短短三秒内阅读 arXiv 上的密集信息和数据的研究论文（约 10k Token），包括图表和图形。我们预计在产品推出后，还将进一步提升其性能。

对于绝大多数工作负载来说，Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍，而且智能水平更高。它特别适合那些需要快速响应的任务，如快速检索知识或销售自动化。而 Opus 在速度上与 Claude 2 和 2.1 相当，但其智能水平要高得多。

卓越的视觉处理能力

Claude 3 系列模型在视觉处理能力上与其他领先模型不相上下。它们能够处理包括照片、图表、图形和技术图纸在内的多种视觉文件。我们特别期待将这一新的功能模块提供给我们的企业客户，他们中的一些人的知识库中高达 50% 的内容是以 PDF、流程图或演示幻灯片等多种格式编码的。

Claude3_数据_03

更少的拒绝回应

在过去，Claude 模型经常不必要地拒绝回应，这反映出对上下文的理解不足。我们在这方面取得了长足进展：与前代模型相比，Opus、Sonnet 和 Haiku 明显降低了在面对接近系统警戒线的提示时的拒绝率。正如下文所示，Claude 3 模型展现出对请求更细腻的理解，能够识别真正的危害，并且很少无故拒绝回答无害的提示。

Claude3_差异化_04

准确性明显提升

各种规模的企业都依赖我们的模型为他们的客户提供服务，因此确保模型输出在大规模应用中保持高准确性至关重要。

为了进行评估，我们使用了一系列复杂的、事实性的问题，这些问题完全针对当前模型的已知弱点。我们将回应分为正确答案、错误答案（或幻觉）和不确定性的承认，即模型表示不知道答案而不是提供错误信息。与 Claude 2.1 相比，Opus 在这些具有挑战性的开放式问题上正确答案的准确率提高了两倍，同时错误答案的比例也有所降低。

除了生成更可信的回应外，我们很快还将在 Claude 3 模型中引入引用功能，使模型能够指向参考材料中的确切句子以验证其答案。

Claude3_API_05

长期上下文处理和近乎完美的记忆能力

Claude 3 系列模型在推出时最初将提供 200K 字符的上下文窗口。而且，这三款模型都能够处理超过 100 万字符的输入，我们可能会将此功能提供给需要更强大处理能力的特定客户。

为了有效处理长期上下文的提示，模型需要具备强大的记忆能力。Needle In A Haystack（NIAH）评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用每个提示的 30 个随机问题对中的一个，并在多样化的众包文档语料库上进行测试，增强了这一评估的稳健性。Claude 3 Opus 不仅实现了接近完美的记忆能力，准确度超过 99%，在某些情况下，它甚至识别出评估本身的局限，意识到 “Needle” 句似乎是人工插入到原文中的。

Claude3_API_06

负责任的设计理念

我们开发 Claude 3 系列模型，旨在使其在可信赖性上与其能力相匹配。我们设有多个专门团队来跟踪和减轻广泛的风险，范围从误信息和 CSAM 到生物滥用、选举干预和自主复制技能等。我们继续发展如宪法 AI 等方法，以提高模型的安全性和透明度，并对模型进行调整，以减轻可能因新模式引起的隐私问题。

在越来越复杂的模型中解决偏见问题是一个持续的工作，我们在这个新版本中已经取得了进展。如模型卡所示，根据问题回答偏见基准（BBQ），Claude 3 显示出比我们以前的模型更少的偏见。我们将继续致力于推进减少偏见的技术，并确保我们的模型更加中立，不偏向任何特定的政治立场。

尽管 Claude 3 系列模型在生物学知识、网络相关知识和自主性方面相比以前的模型有所进步，但根据我们的负责任扩展政策，它仍然处于 AI 安全等级 2（ASL-2）。我们的红队评估（按照我们的白宫承诺和 2023 年美国行政命令进行）得出结论，这些模型目前几乎没有潜在的灾难性风险。我们将继续密切监控未来模型的发展，以评估它们是否接近 ASL-3 阈值。

更加易用

Claude 3 模型在遵循复杂的多步骤指令方面表现更佳。它们在坚持品牌声音和响应准则，以及开发用户信赖的面向客户体验方面尤为擅长。此外，Claude 3 模型在生成像 JSON 这样的流行结构化输出格式方面也有所提升 —— 这使得使用 Claude 处理自然语言分类和情感分析等用例变得更加简单。

模型详情

Claude 3 Opus 是我们最智能的模型，它在处理高度复杂任务方面的表现位居市场之首。它能够流畅且近似人类般理解地应对开放式提示和前所未见的场景。Opus 展示了生成式 AI 可能达到的极限。

成本（输入美元/百万 Token \| 输出美元/百万 Token）	15 美元 \| 75 美元
上下文窗口	20 万
潜在用途	任务自动化：在 API 和数据库中规划与执行复杂动作，进行交互式编程研发：进行研究审查、创意头脑风暴和假设构建，以及药物研发战略：对图表和图形进行高级分析，深入解读财务状况和市场趋势，进行预测分析
差异化因素	智能水平超越所有现有模型。

Claude 3 Sonnet 实现了智能与速度的理想平衡，特别适用于企业级工作负载。与同类产品相比，它以更低的成本提供强大的性能，并且针对大规模 AI 部署设计了高耐用性。

成本（输入美元/百万 Token \| 输出美元/百万 Token）	3 美元 \| 15 美元
上下文窗口	20万
潜在用途	数据处理：利用 RAG（检索增强型生成）或在海量知识库中进行搜索和检索销售：提供产品推荐、进行销售预测、实施目标化营销节约时间的任务：生成代码、进行质量控制、从图像中提取文本内容
差异化因素	与同等智能的其他模型相比，价格更优惠，更适合大规模应用。

Claude 3 Haiku 是我们最快速、最紧凑的模型，能够提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建仿真人互动的无缝 AI 体验。

成本（输入美元/百万 Token \| 输出美元/百万 Token）	0.25 美元 \| 1.25 美元
上下文窗口	20万
潜在用途	客户互动：在实时交流中提供快速而准确的支持，执行翻译任务内容审核：识别潜在风险行为或客户需求降低成本的任务：实现物流优化，管理库存，从非结构化数据中挖掘知识
差异化因素	在同类智能模型中，它更智能、反应更快，且更具成本效益。

模型可用性

Opus 和 Sonnet 目前已经可以在我们的 API 中使用，该 API 已经广泛开放，使开发者可以立即注册并开始使用这些模型。Haiku 很快也将推出。Sonnet 目前正在 claude.ai 上支持免费体验，Opus 则为 Claude Pro 订阅用户提供。

Sonnet 目前也可通过 Amazon Bedrock 使用，并在 Google Cloud 的 Vertex AI Model Garden 上进行私下预览 ——Opus 和 Haiku 也将很快在这两个平台上推出。

更智能、更快速、更安全

我们认为模型智能还远未触及其极限，并计划在未来几个月内频繁更新 Claude 3 模型系列。我们还计划推出一系列增强模型功能的特性，尤其是针对企业用例和大规模部署。这些新特性将包括工具使用（即函数调用）、交互式编码（即 REPL）以及更先进的代理功能。

在推动 AI 能力边界的同时，我们同样致力于确保我们的安全防线与性能的飞跃同步前进。我们的假设是，处于 AI 发展的前沿是将其轨迹引向积极社会效果的最有效途径。

原文链接：https://www.anthropic.com/news/claude-3-family

参考内容：https://www.cnbc.com/2024/03/04/google-backed-anthropic-debuts-claude-3-its-most-powerful-chatbot-yet.html

https://www.aboutamazon.com/news/aws/amazon-bedrock-anthropic-ai-claude-

原创作者: whaosoft 转载于: https://blog.51cto.com/whaosoft/11578243

王大明白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Claude3

大模型的纯文本方向，已经卷到头了？昨晚，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。该系列包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中，能力最强的 Opus 在多项基准测...
复制链接

扫一扫