LLM系列 | 28:实测Claude 3有感,OpenAI员工为啥没有竞业协议?

  • 引言

  • 简介

  • Claude 3

    • 更快

    • 视觉能力

    • 拒绝回复更少

    • 准确率更高

    • 上下文理解更长

    • 安全&易用

  • 如何使用?

  • 实测

    • 长文本摘要

    • 长论文解读

    • 编程能力

    • 视觉能力

  • 总结

0. 引言

绿杨烟外晓寒轻,红杏枝头春意闹。

小伙伴们好,我是公众号《小窗幽记机器学习》的小编:卖仙豆的小女孩,今天这篇小作文主要介绍Claude 3,主要包括三部分:

  1. 介绍Claude 3的特点

  2. 介绍如何使用Claude 3

  3. 实测Claude 3

如需与小编进一步交流,可以在公众号《小窗幽记机器学习》上添加小编微信好友。

1. 简介

OpenAI的最强竞争对手Anthropic于3月4日发布了新一代AI 大模型系列:Claude 3。Claude 3 包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku(中杯)、Claude 3 Sonnet(大杯) 和 Claude 3 Opus(超大杯)。这些模型分别适用于不同场景,Opus能力最强,Sonnet平衡速度和能力,Haiku最快,适合互动型AI应用场景。Opus和Sonnet现在可以在claude.ai上使用,也可以通过Claude的API使用,该API已面向159个国家正式推出(当然,一如既往地不让我们玩,期待有战狼为开发者发声)。另外,Haiku暂时还没有推出,官方说,快了。

官方表示后续将推出一系列功能来增强模型能力,包括工具使用(即函数调用)、交互式编码(即REPL)和更高级的Agent能力。

2. Claude 3

Claude 3中的Opus是最智能的模型,在多个AI系统评估基准,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)上完胜其他模型。Opus在复杂任务上展现出接近人类水平的理解和流畅性,确实一定程度上代表了通用智能的最前沿。

所有Claude 3模型在分析和预测、细致内容创作、代码生成以及与西班牙语、日语和法语等非英语语言进行对话方面的能力均大幅提升。以下是Claude 3模型与其他大模型在多个评测基准上的比较结果:

更快

Claude 3模型可以用于客户实时聊天、自动完成和数据提取等任务,其中回复必须即时和实时。Haiku是市场上在其智能系统中速度最快、成本最低的模型。它可以在不到三秒钟的时间内阅读一篇信息和数据密集的arXiv研究论文(约10,000个token),包括图表和图形。

在绝大多数工作中,Sonnet比Claude 2和Claude 2.1快2倍,并具有更高水平的智能。它擅长于需要快速回应的任务,如知识检索或自动化销售。Opus的速度与Claude 2和2.1相似,但更智能。

视觉能力

Claude 3模型具备与其他领先模型相当的复杂视觉能力,从而可以处理各种视觉格式,包括照片、图表、流程图等。一些企业客户的知识库高达50%的内容以PDF、流程图或演示幻灯片等多种格式进行编码,那么这种视觉能力就可以很重要。

拒绝回复更少

之前的Claude模型常常做出不必要的拒绝回答,这表明它们缺乏上下文理解。Opus、Sonnet和Haiku相比前一代模型,在接近系统限制的提示上,它们拒绝回答的可能性明显较低。如下所示,Claude 3模型对请求有更细致入微的理解,能够识别真正的危害,并更少地拒绝回答无害的提示。

准确率更高

模型输出的高准确性在大规模应用中至关重要。为了评估这一点,使用一组大量的复杂事实性问题,针对当前模型的已知弱点。将回答分为正确答案、错误答案(或幻觉)以及承认不确定性(即模型表示不知道答案而不是提供错误信息)。与Claude 2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)提高了两倍,同时也降低了错误答案的水平。

除了产生更可信的回答外,后续的Claude 3模型将启用引用功能,这样可以指向参考资料中的精确句子来验证其答案。

上下文理解更长

Claude 3模型系列在推出时提供200K的上下文窗口。然而,这其实是隐藏了真正实力,这3个模型其实都能够接受超过1百万个token的输入。只是,这项能力只会面向特定客户开放。

为了有效处理长上下文提示,模型需要强大的回忆能力。"大海捞针"(Needle In A Haystack) 评估衡量了模型从大量语料库中准确回忆信息的能力。通过在每个提示中使用30个随机的"针"与问题配对,并在一个多样的众包语料库文档上进行测试,提升了这个基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率高于99%。

安全&易用

Claude 3官方拥有多个专门的团队,致力于追踪和缓解各种广泛的风险,包括错误信息、儿童性虐待物品(CSAM)、生物滥用、选举干扰和自主复制技能。此外,Claude 3开发团队不断研究新方法,如宪法AI(Constitutional AI),以提高模型的安全性和透明度,并调整模型以减轻可能由新模态引发的隐私问题。

解决日益复杂的模型中的偏见是一个持续的过程,在这个新版本中也取得了进展。根据问题回答的偏见基准(BBQ),Claude 3比以前的模型带有更少的偏见。官方致力于推进减少偏见、促进模型更大中立性的技术方法,确保它们不偏向任何特定的党派立场。

虽然与以前的模型相比,Claude 3模型系列在生物知识、网络相关知识和自主性方面取得了进展,但根据Responsible Scaling Policy, 它仍处于AI安全等级2(ASL-2)。Claude 3的红队评估得出的结论是,目前模型对灾难性风险的潜在影响微乎其微。我们将继续密切监控未来的模型,以评估它们与ASL-3门槛的接近程度。Claude 3模型卡中提供了更多安全细节。

在易用性方面,Claude 3模型在遵循复杂的多步指令方面表现更好。比如,针对不同品牌,特别擅长遵循品牌声音和特定的回复规范,从而为客户开发更可信的体验。此外,Claude 3 模型在生成JSON等结构化输出格式方面表现更好,这使得对Claude进行自然语言分类和情感分析等用例的指导更加简单。

3. 如何使用?

  1. 官网入口
    Opus和Sonnet的API已经全面推出,开发人员可以立即注册并开始使用,但是Haiku还在准备中,据说也快了。Sonnet在claude.ai上每天可以免费体验一定次数:https://claude.ai/chat/ ,而Opus则适用于Claude Pro订阅用户。

    Sonnet今天也可以通过亚马逊的Bedrock和Google Cloud的Vertex AI Model Garden私人预览来使用, Opus和Haiku即将在这两个平台上推出。

  2. Poe

    通过Poe的官网 https://poe.com/,免费使用 Sonnet, 每天有限制,可付费订阅解锁更大上下文以及 Opus:https://poe.com/Claude-3-Opus

  1. Lmsys
    Lmsys现在可以免费体验Opus、Sonnet,但只支持文本,无法处理附件或图片, Lmsys网站入口:https://chat.lmsys.org

  1. Perplexity
    通过Perplexity官网:https://www.perplexity.ai/ 进入。Perplexity Pro 会员现在每天可以使用 5 次 Claude 3 的 Opus 模型。

4. 实测

以下用Sonnet版进行实测。为啥不用Opus,别问了,桑心~

长文本摘要

所选用的论文标题:

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

论文地址:

https://arxiv.org/abs/2403.03507

更长的论文解读可以查看本期的:【论文解读系列】GaLore: 突破内存瓶颈,4090预训练7B大模型不是梦!这篇文章。

这里只要求50字以内摘要结果:

GaLore是一种新的大型语言模型训练策略,
通过利用梯度矩阵的低秩结构减少优化器状态的内存消耗。
它不仅在内存效率上优于LoRA等低秩适配方法,
还可以在不影响性能的前提下,
将内存使用降低65.5%以上。
更重要的是,GaLore使得在消费级GPU上从头训练十亿参数模型成为可能,这为AI的民主化和推广带来了重大进展。

编程能力

测试case:

python内建的split()函数只能使用单个分隔符,如果我的分隔符有多种字符呢,该怎么处理?test_text="爱坤,爱哭|爱堃;爱困"

生成代码如下:

import re

test_text = "爱坤,爱哭|爱堃;爱困"

# 定义多种分隔符的正则表达式模式
pattern = r'[,|;]'

# 使用re.split()函数进行分割
result = re.split(pattern, test_text)

print(result)

实测,可以正常运行且结果符合预期:

['爱坤', '爱哭', '爱堃', '爱困']

视觉能力

测试case1:

可能是爱坤的咖位不够,或者说由于全球影响力不足,导致没有被纳入训练数据集里面。诸位爱坤,为爱豆努力的时候到了,不想AI连爱豆都不认识吧?V我50,走不正规审批后门流程,将爱豆的数据加到训练集!!!

测试case2:

以下是微博热搜截图,将张图的内容,转为markdown格式:

输出结果:很好,我已经将图像内容转换为markdown格式如下:

序号关键词
1在发展中稳步提升民生保障水平
2花店接5万2现金花束大单竟是洗钱
3西班牙将正式承认巴勒斯坦国
4两会送出文旅上分攻略
5妈妈一个人敲诈了儿子的房间
69块9的咖啡还能赚多久
7女警脱下制服递枪车内产子的妻妇
8王曼昔3比2阿库拉
9被我拿去的你 原生家庭  电影
10沙丘 沙虫  电影
11人大代表拿出我国文创瞻目被国观

可以看出,效果还是不错的,但是部分识别内容出错,比如识别结果中的妈妈一个人敲诈了儿子的房间,其实正确结果应该是妈妈一个人改造了儿子的房间。OCR能力还不错,但是还有较大的提升空间。

5. 总结

Claude 3支持200K token的超长上下文,还具备图像识别能力。最强的Opus模型在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,同时刷新了数学、编程、多语言理解、视觉等多个行业基准纪录。实测Sonnet版之后,效果确实不错,值得白嫖!强行安利!

众所周知,Claude是由OpenAI前员工创办的公司Anthropic所推出。那么习惯了竞业的我们不禁要问,为啥OpenAI不竞业掉这些前员工?仅仅是因为硅谷所在的加州立法禁止竞业协定?还是有其他不为人知的原因?先进的竞业协议何时推广到湾区?卡ta们的脖子,拭目以待!

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值