LLM系列 | 28：实测Claude 3有感，OpenAI员工为啥没有竞业协议？

最新推荐文章于 2024-09-17 16:52:57 发布

JasonLiu1919

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量1.1k

点赞数 17

分类专栏： LLM 文章标签：人工智能 LLM OpenAI

本文链接：https://blog.csdn.net/ljp1919/article/details/136611735

版权

LLM 专栏收录该内容

34 篇文章 21 订阅

订阅专栏

引言
简介
Claude 3
- 更快
- 视觉能力
- 拒绝回复更少
- 准确率更高
- 上下文理解更长
- 安全&易用
如何使用？
实测
- 长文本摘要
- 长论文解读
- 编程能力
- 视觉能力
总结

0. 引言

绿杨烟外晓寒轻，红杏枝头春意闹。

小伙伴们好，我是公众号《小窗幽记机器学习》的小编：卖仙豆的小女孩，今天这篇小作文主要介绍Claude 3，主要包括三部分：

介绍Claude 3的特点
介绍如何使用Claude 3
实测Claude 3

如需与小编进一步交流，可以在公众号《小窗幽记机器学习》上添加小编微信好友。

1. 简介

OpenAI的最强竞争对手Anthropic于3月4日发布了新一代AI 大模型系列：Claude 3。Claude 3 包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku（中杯）、Claude 3 Sonnet（大杯）和 Claude 3 Opus（超大杯）。这些模型分别适用于不同场景，Opus能力最强，Sonnet平衡速度和能力，Haiku最快，适合互动型AI应用场景。Opus和Sonnet现在可以在claude.ai上使用，也可以通过Claude的API使用，该API已面向159个国家正式推出(当然，一如既往地不让我们玩，期待有战狼为开发者发声)。另外，Haiku暂时还没有推出，官方说，快了。

官方表示后续将推出一系列功能来增强模型能力，包括工具使用（即函数调用）、交互式编码（即REPL）和更高级的Agent能力。

2. Claude 3

Claude 3中的Opus是最智能的模型，在多个AI系统评估基准，包括本科水平专家知识（MMLU）、研究生水平专家推理（GPQA）、基础数学（GSM8K）上完胜其他模型。Opus在复杂任务上展现出接近人类水平的理解和流畅性，确实一定程度上代表了通用智能的最前沿。

所有Claude 3模型在分析和预测、细致内容创作、代码生成以及与西班牙语、日语和法语等非英语语言进行对话方面的能力均大幅提升。以下是Claude 3模型与其他大模型在多个评测基准上的比较结果：

更快

Claude 3模型可以用于客户实时聊天、自动完成和数据提取等任务，其中回复必须即时和实时。Haiku是市场上在其智能系统中速度最快、成本最低的模型。它可以在不到三秒钟的时间内阅读一篇信息和数据密集的arXiv研究论文（约10,000个token），包括图表和图形。

在绝大多数工作中，Sonnet比Claude 2和Claude 2.1快2倍，并具有更高水平的智能。它擅长于需要快速回应的任务，如知识检索或自动化销售。Opus的速度与Claude 2和2.1相似，但更智能。

视觉能力

Claude 3模型具备与其他领先模型相当的复杂视觉能力，从而可以处理各种视觉格式，包括照片、图表、流程图等。一些企业客户的知识库高达50%的内容以PDF、流程图或演示幻灯片等多种格式进行编码，那么这种视觉能力就可以很重要。

拒绝回复更少

之前的Claude模型常常做出不必要的拒绝回答，这表明它们缺乏上下文理解。Opus、Sonnet和Haiku相比前一代模型，在接近系统限制的提示上，它们拒绝回答的可能性明显较低。如下所示，Claude 3模型对请求有更细致入微的理解，能够识别真正的危害，并更少地拒绝回答无害的提示。

准确率更高

模型输出的高准确性在大规模应用中至关重要。为了评估这一点，使用一组大量的复杂事实性问题，针对当前模型的已知弱点。将回答分为正确答案、错误答案（或幻觉）以及承认不确定性(即模型表示不知道答案而不是提供错误信息)。与Claude 2.1相比，Opus在这些具有挑战性的开放性问题上的准确性（或正确答案）提高了两倍，同时也降低了错误答案的水平。

除了产生更可信的回答外，后续的Claude 3模型将启用引用功能，这样可以指向参考资料中的精确句子来验证其答案。

上下文理解更长

Claude 3模型系列在推出时提供200K的上下文窗口。然而，这其实是隐藏了真正实力，这3个模型其实都能够接受超过1百万个token的输入。只是，这项能力只会面向特定客户开放。

为了有效处理长上下文提示，模型需要强大的回忆能力。"大海捞针"（Needle In A Haystack）评估衡量了模型从大量语料库中准确回忆信息的能力。通过在每个提示中使用30个随机的"针"与问题配对，并在一个多样的众包语料库文档上进行测试，提升了这个基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的回忆，准确率高于99%。

安全&易用

Claude 3官方拥有多个专门的团队，致力于追踪和缓解各种广泛的风险，包括错误信息、儿童性虐待物品（CSAM）、生物滥用、选举干扰和自主复制技能。此外，Claude 3开发团队不断研究新方法，如宪法AI（Constitutional AI），以提高模型的安全性和透明度，并调整模型以减轻可能由新模态引发的隐私问题。

解决日益复杂的模型中的偏见是一个持续的过程，在这个新版本中也取得了进展。根据问题回答的偏见基准（BBQ），Claude 3比以前的模型带有更少的偏见。官方致力于推进减少偏见、促进模型更大中立性的技术方法，确保它们不偏向任何特定的党派立场。

虽然与以前的模型相比，Claude 3模型系列在生物知识、网络相关知识和自主性方面取得了进展，但根据Responsible Scaling Policy，它仍处于AI安全等级2（ASL-2）。Claude 3的红队评估得出的结论是，目前模型对灾难性风险的潜在影响微乎其微。我们将继续密切监控未来的模型，以评估它们与ASL-3门槛的接近程度。Claude 3模型卡中提供了更多安全细节。

在易用性方面，Claude 3模型在遵循复杂的多步指令方面表现更好。比如，针对不同品牌，特别擅长遵循品牌声音和特定的回复规范，从而为客户开发更可信的体验。此外，Claude 3 模型在生成JSON等结构化输出格式方面表现更好，这使得对Claude进行自然语言分类和情感分析等用例的指导更加简单。

3. 如何使用？

官网入口
Opus和Sonnet的API已经全面推出，开发人员可以立即注册并开始使用，但是Haiku还在准备中，据说也快了。Sonnet在claude.ai上每天可以免费体验一定次数：https://claude.ai/chat/ ，而Opus则适用于Claude Pro订阅用户。

Sonnet今天也可以通过亚马逊的Bedrock和Google Cloud的Vertex AI Model Garden私人预览来使用， Opus和Haiku即将在这两个平台上推出。
Poe

通过Poe的官网 https://poe.com/，免费使用 Sonnet，每天有限制，可付费订阅解锁更大上下文以及 Opus：https://poe.com/Claude-3-Opus

Lmsys
Lmsys现在可以免费体验Opus、Sonnet，但只支持文本，无法处理附件或图片， Lmsys网站入口：https://chat.lmsys.org

Perplexity
通过Perplexity官网：https://www.perplexity.ai/ 进入。Perplexity Pro 会员现在每天可以使用 5 次 Claude 3 的 Opus 模型。

4. 实测

以下用Sonnet版进行实测。为啥不用Opus，别问了，桑心~

长文本摘要

所选用的论文标题：

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

论文地址：

https://arxiv.org/abs/2403.03507

更长的论文解读可以查看本期的：【论文解读系列】GaLore: 突破内存瓶颈，4090预训练7B大模型不是梦！这篇文章。

这里只要求50字以内摘要结果：

GaLore是一种新的大型语言模型训练策略,
通过利用梯度矩阵的低秩结构减少优化器状态的内存消耗。
它不仅在内存效率上优于LoRA等低秩适配方法,
还可以在不影响性能的前提下,
将内存使用降低65.5%以上。
更重要的是,GaLore使得在消费级GPU上从头训练十亿参数模型成为可能,这为AI的民主化和推广带来了重大进展。

编程能力

测试case：

python内建的split()函数只能使用单个分隔符，如果我的分隔符有多种字符呢，该怎么处理？test_text="爱坤，爱哭|爱堃;爱困"

生成代码如下：

import re

test_text = "爱坤，爱哭|爱堃;爱困"

# 定义多种分隔符的正则表达式模式
pattern = r'[，|;]'

# 使用re.split()函数进行分割
result = re.split(pattern, test_text)

print(result)

实测，可以正常运行且结果符合预期：

['爱坤', '爱哭', '爱堃', '爱困']

视觉能力

测试case1：

可能是爱坤的咖位不够，或者说由于全球影响力不足，导致没有被纳入训练数据集里面。诸位爱坤，为爱豆努力的时候到了，不想AI连爱豆都不认识吧？V我50，走不正规审批后门流程，将爱豆的数据加到训练集！！！

测试case2：

以下是微博热搜截图，将张图的内容，转为markdown格式：

输出结果：很好,我已经将图像内容转换为markdown格式如下:

序号	关键词
1	在发展中稳步提升民生保障水平
2	花店接5万2现金花束大单竟是洗钱
3	西班牙将正式承认巴勒斯坦国
4	两会送出文旅上分攻略
5	妈妈一个人敲诈了儿子的房间
6	9块9的咖啡还能赚多久
7	女警脱下制服递枪车内产子的妻妇
8	王曼昔3比2阿库拉
9	被我拿去的你原生家庭电影
10	沙丘沙虫电影
11	人大代表拿出我国文创瞻目被国观