大模型的纯文本方向,已经卷到头了?

昨晚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。

该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。

Anthropic 表示,Claude 3 Opus 拥有人类本科生水平的知识。

Anthropic发布Claude 3模型,性能超过GPT-4,AI 初创公司 Anthropic 由 OpenAI 前高管创立,“背靠” 谷歌,堪称是 OpenAI 在 AI 领域最大的竞争对手。刚刚他们宣布发布了 Claude 3 模型系列,该模型系列包含 3 个模型:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,Anthropic 声称这个模型系列在推理、数学、编码、多语言理解和视觉方面树立了新的行业标准

下面是关于 Claude 3 模型系列的官网介绍。

今天,我们荣幸地宣布推出 Claude 3 模型系列,这是一个在多种认知任务中树立了新行业标准的系列。该系列包括三款顶尖模型,按能力递增依次为:Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每一款模型都比前一款性能更强,用户可以根据自己的应用需求,选择最适合的智能程度、速度和成本平衡。

Opus 和 Sonnet 目前已经可以在 claude.ai 和 Claude API 上使用,这些服务现在已覆盖 159 个国家。Haiku 模型也将很快推出。

Claude 3 模型系列

Claude3_数据

智能的新标杆

我们的明星产品 Opus,在大多数 AI 系统的常见评估基准上都超越了其他同类产品,这些基准包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。在处理复杂任务时,它展现出近乎人类的理解能力和流畅度,是通用智能领域的佼佼者。

所有 Claude 3 系列模型在分析预测、创造富有细腻感的内容、代码生成,以及使用西班牙语、日语和法语等非英语交流方面的能力均有明显提升。

以下是我们的 Claude 3 系列模型与其他同行在多个能力基准上的对比情况:

Claude3_人工智能_02

近乎即时的响应

Claude 3 系列模型能够实时支持在线客户聊天、自动完成和数据提取任务,保证响应的即时性和实时性。

在其智能类别中,Haiku 是市场上最快速、性价比最高的模型。它能够在短短三秒内阅读 arXiv 上的密集信息和数据的研究论文(约 10k Token),包括图表和图形。我们预计在产品推出后,还将进一步提升其性能。

对于绝大多数工作负载来说,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,而且智能水平更高。它特别适合那些需要快速响应的任务,如快速检索知识或销售自动化。而 Opus 在速度上与 Claude 2 和 2.1 相当,但其智能水平要高得多

卓越的视觉处理能力

Claude 3 系列模型在视觉处理能力上与其他领先模型不相上下。它们能够处理包括照片、图表、图形和技术图纸在内的多种视觉文件。我们特别期待将这一新的功能模块提供给我们的企业客户,他们中的一些人的知识库中高达 50% 的内容是以 PDF、流程图或演示幻灯片等多种格式编码的。

Claude3_数据_03

更少的拒绝回应

在过去,Claude 模型经常不必要地拒绝回应,这反映出对上下文的理解不足。我们在这方面取得了长足进展:与前代模型相比,Opus、Sonnet 和 Haiku 明显降低了在面对接近系统警戒线的提示时的拒绝率。正如下文所示,Claude 3 模型展现出对请求更细腻的理解,能够识别真正的危害,并且很少无故拒绝回答无害的提示。

Claude3_差异化_04

准确性明显提升

各种规模的企业都依赖我们的模型为他们的客户提供服务,因此确保模型输出在大规模应用中保持高准确性至关重要。

为了进行评估,我们使用了一系列复杂的、事实性的问题,这些问题完全针对当前模型的已知弱点。我们将回应分为正确答案、错误答案(或幻觉)和不确定性的承认,即模型表示不知道答案而不是提供错误信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上正确答案的准确率提高了两倍,同时错误答案的比例也有所降低。

除了生成更可信的回应外,我们很快还将在 Claude 3 模型中引入引用功能,使模型能够指向参考材料中的确切句子以验证其答案。

Claude3_API_05

长期上下文处理和近乎完美的记忆能力

Claude 3 系列模型在推出时最初将提供 200K 字符的上下文窗口。而且,这三款模型都能够处理超过 100 万字符的输入,我们可能会将此功能提供给需要更强大处理能力的特定客户。

为了有效处理长期上下文的提示,模型需要具备强大的记忆能力。Needle In A Haystack(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。我们通过使用每个提示的 30 个随机问题对中的一个,并在多样化的众包文档语料库上进行测试,增强了这一评估的稳健性。Claude 3 Opus 不仅实现了接近完美的记忆能力,准确度超过 99%,在某些情况下,它甚至识别出评估本身的局限,意识到 “Needle” 句似乎是人工插入到原文中的。

Claude3_API_06

负责任的设计理念

我们开发 Claude 3 系列模型,旨在使其在可信赖性上与其能力相匹配。我们设有多个专门团队来跟踪和减轻广泛的风险,范围从误信息和 CSAM 到生物滥用、选举干预和自主复制技能等。我们继续发展如宪法 AI 等方法,以提高模型的安全性和透明度,并对模型进行调整,以减轻可能因新模式引起的隐私问题。

在越来越复杂的模型中解决偏见问题是一个持续的工作,我们在这个新版本中已经取得了进展。如模型卡所示,根据问题回答偏见基准(BBQ),Claude 3 显示出比我们以前的模型更少的偏见。我们将继续致力于推进减少偏见的技术,并确保我们的模型更加中立,不偏向任何特定的政治立场。

尽管 Claude 3 系列模型在生物学知识、网络相关知识和自主性方面相比以前的模型有所进步,但根据我们的负责任扩展政策,它仍然处于 AI 安全等级 2(ASL-2)。我们的红队评估(按照我们的白宫承诺和 2023 年美国行政命令进行)得出结论,这些模型目前几乎没有潜在的灾难性风险。我们将继续密切监控未来模型的发展,以评估它们是否接近 ASL-3 阈值。

更加易用

Claude 3 模型在遵循复杂的多步骤指令方面表现更佳。它们在坚持品牌声音和响应准则,以及开发用户信赖的面向客户体验方面尤为擅长。此外,Claude 3 模型在生成像 JSON 这样的流行结构化输出格式方面也有所提升 —— 这使得使用 Claude 处理自然语言分类和情感分析等用例变得更加简单。 

模型详情

Claude 3 Opus 是我们最智能的模型,它在处理高度复杂任务方面的表现位居市场之首。它能够流畅且近似人类般理解地应对开放式提示和前所未见的场景。Opus 展示了生成式 AI 可能达到的极限。

成本
(输入 美元/百万 Token | 输出 美元/百万 Token)

15 美元 | 75 美元

上下文窗口

20 万

潜在用途

  • 任务自动化:在 API 和数据库中规划与执行复杂动作,进行交互式编程
  • 研发:进行研究审查、创意头脑风暴和假设构建,以及药物研发
  • 战略:对图表和图形进行高级分析,深入解读财务状况和市场趋势,进行预测分析

差异化因素

智能水平超越所有现有模型。

Claude 3 Sonnet 实现了智能与速度的理想平衡,特别适用于企业级工作负载。与同类产品相比,它以更低的成本提供强大的性能,并且针对大规模 AI 部署设计了高耐用性。

成本
(输入 美元/百万 Token | 输出 美元/百万 Token)

3 美元 | 15 美元

上下文窗口

20万

潜在用途

  • 数据处理:利用 RAG(检索增强型生成)或在海量知识库中进行搜索和检索
  • 销售:提供产品推荐、进行销售预测、实施目标化营销
  • 节约时间的任务:生成代码、进行质量控制、从图像中提取文本内容

差异化因素

与同等智能的其他模型相比,价格更优惠,更适合大规模应用。

Claude 3 Haiku 是我们最快速、最紧凑的模型,能够提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建仿真人互动的无缝 AI 体验。

成本
(输入 美元/百万 Token | 输出 美元/百万 Token)

0.25 美元 | 1.25 美元

上下文窗口

20万

潜在用途

  • 客户互动:在实时交流中提供快速而准确的支持,执行翻译任务
  • 内容审核:识别潜在风险行为或客户需求
  • 降低成本的任务:实现物流优化,管理库存,从非结构化数据中挖掘知识

差异化因素

在同类智能模型中,它更智能、反应更快,且更具成本效益。

模型可用性

Opus 和 Sonnet 目前已经可以在我们的 API 中使用,该 API 已经广泛开放,使开发者可以立即注册并开始使用这些模型。Haiku 很快也将推出。Sonnet 目前正在 claude.ai 上支持免费体验,Opus 则为 Claude Pro 订阅用户提供。

Sonnet 目前也可通过 Amazon Bedrock 使用,并在 Google Cloud 的 Vertex AI Model Garden 上进行私下预览 ——Opus 和 Haiku 也将很快在这两个平台上推出。

更智能、更快速、更安全

我们认为模型智能还远未触及其极限,并计划在未来几个月内频繁更新 Claude 3 模型系列。我们还计划推出一系列增强模型功能的特性,尤其是针对企业用例和大规模部署。这些新特性将包括工具使用(即函数调用)、交互式编码(即 REPL)以及更先进的代理功能。

在推动 AI 能力边界的同时,我们同样致力于确保我们的安全防线与性能的飞跃同步前进。我们的假设是,处于 AI 发展的前沿是将其轨迹引向积极社会效果的最有效途径。

原文链接:https://www.anthropic.com/news/claude-3-family

参考内容:https://www.cnbc.com/2024/03/04/google-backed-anthropic-debuts-claude-3-its-most-powerful-chatbot-yet.html

 https://www.aboutamazon.com/news/aws/amazon-bedrock-anthropic-ai-claude-