狙击GPT5?Claude3体验方法及初步个人评测

eb58f2d4662a42088fcf9e5feb1c9c0e.png

3月4号,被视作“OpenAI最大竞争对手”的著名AI大模型公司Anthropic公司发布了其第三代Cluade大模型:Claude 3。这次的Claude 3一次性发布了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。其中:

  • Haiku 是市场上最快且最具成本效益的模型,也是成本最低的选项,在大多数纯文本任务上的表现仍然相当出色,也同时包含多模态能力。

  • 对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的智能任务,例如知识检索或销售自动化。它在智能和速度之间实现了理想的平衡——对于企业用例是尤其重要的品质。

  • Opus 是最先进、最强大的基础模型,具有深度推理、高级数学和编码能力,在高度复杂的任务上具有顶级性能。它可以非常流畅地导航开放式提示和新颖场景,包括任务自动化、假设生成以及图表、图形和预测的分析。适用于需要高度智能和复杂任务处理的场景,如企业自动化、复杂金融预测、研究和开发等。

在相关测评中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准,在特定测试场景如研究生水平考试Q题解A以及数学Q题解决上,Claude 3表现出优于GPT-4的成绩。例如,在zero-shot学习环境下,Claude 3的准确率达到了60%,超过了GPT-4的52%。

36539b18cecd4c7ab2db2a93fe4e200a.png

本篇文章将通过Amazon Bedrock教大家如何体验Claude3,并对Claude3做初步测评分析。

一、Claude3体验方法

目前,Anthropic 的 Claude 3 Sonnet 模型现已在亚马逊云科技的 Amazon Bedrock 正式可用。目前可以完全试用。首先点击体验链接:CloudAssist

无需注册账号,仅需要扫码进入CloudAssist,然后点击限时试用:

edc2db18d42541a29adfcef9a6e79ff2.png

然后点击进入Amazon Bedrock:

6925cd4f86144c6eb8bf17625dc95e16.png

进入Bedrock控制台后,在这里我们可以看到Amazon Bedrock支持多个基础模型(foundation model),其中包括Amazon Titan,Claude,Jurassic,Command,Stable Diffusion 以及 Llama2。

登录后,还需要对Amazon Bedrock中的模型进行授权,对于某些模型,可能首先需要提交用例详细信息,然后才能请求访问。这里点击模型访问权限——管理模型访问权限:

fff7f047b1354e0fa7ec4f2184e80715.png

申请Claude3需要提交应用场景详细信息:

df216367f21348659dd76b581caef45c.png

然后在弹出的表单中提交相关信息,在应用场景中可以写试用

679e282db8ed407d9520af393bf2ade4.png

提交申请后,勾选Claude 3 Sonnet,然后翻到最底部点击提交即可获取使用权限

16a2db41a2074377b7c40fb795e5d14c.png

等待两到三分钟后,可以看到成功获取到访问权限。然后我们点击聊天,点击选择模型,选择Anthropic中的Claude 3 Sonnet,就可以开始体验了!

04f786c3f33f4ea0aff88086789e6e36.png

二、Claude3初步体验

2.1、参数配置

923e904175aa4c669390213ab3ca55b4.png

进入后可以看到Claude 3 Sonnet提供了多项配置,其中Top-k、Top-p 和温度参数是 常用的三个参数。这些参数可以有效地控制模型的输出行为和生成质量。通过调整这些参数的设置,可以更好地调优模型的性能,以适应不同的应用场景和任务需求,具体设置如下:

  1. 温度:温度是一个控制生成文本多样性的参数,较高的温度值,如1.0,会产生更随机的输出,而较低的温度值,如0.1,会使模型更倾向于选择最可能的单词。

  2. 排名前P:Top-p 是一种考虑模型输出的全局策略,它决定了更好地探索可能的输出序列,从而产生更多样化的输出。具体来说,Top-p 策略首先按照每个词的预测概率对它们进行排序,然后根据这些词的顺序逐个选择下一个输出,直到累计概率达到 p。Top-p 可以更好地探索可能的输出序列,从而产生更多样化的输出

  3. 排名前K:Top-k 是一种控制模型输出的策略,它决定了模型在生成文本时应该考虑的下一个词的最大词频。在生成文本时,模型会根据当前的上下文预测下一个词的概率分布,然后从最高的预测概率中采样出一个词作为下一个输出。但是,如果下一个词的预测概率非常高(即 top-1),那么模型可能会过于自信,忽略了其他可能的词。

  4. 最大长度:这是生成文本的最大长度限制,超过这个长度的文本将被截断或停止生成。

  5. 停止序列:停止序列是一个指定的特殊标记或序列,暂时不用管。

本次体验在默认参数下进行,我们选择了一些网络上具有代表性的问题进行提问:

2.2、模型效果

分橘子问题(考验模型常识+推理能力)

最多切一刀,如何把四个橘子分给四个小朋友,回答的较好:

2792c65a27444167a7674ce96eed0b68.png

我父母婚礼为何不邀请我参加?(考验常识与信息确认能力)

这里出现了错误,无法应对智障问题

0d60b27f2a614938859cbe0de59600ad.png

数学类计算问题

简单算数完全没有问题:

5e91ab9da0534e259099dc3d5b3bb616.png

数位过多或者比较复杂的计算仍然有错误,实际结果应该为91425854

e02a6c2a8f6f44ff8f8945715af617e6.png

551750118d0746cbabcd6d47680de674.png

视觉识别

输入了一张红色的鸟类图像,可以看到其能够比较准确的认知图像:

30d8d02727614a399f0a54ed7d0d0d9a.png

视觉+常识

输入一张时钟图像,其正确时间为10点10左右,出现了认知错误

1f30ab363e73483d949540e0b8cbebcb.png

视觉+逻辑

输入以下图像,让Claude3识别火箭的数量

9e3cdea9bbe949ebaa09c75cd1a792c0.png

可以看到面对这种高阶的视觉逻辑问题,其回答仍然有错误

0ecc10dfea8a48fb990b9aad6b3204b3.png

三、Amazon Bedrock简介

Amazon Bedrock 是一项完全托管的服务,其提供了来自众多领先AI公司(包括 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和亚马逊)面向海外业务的的高性能基础模型,除了Claude3, Amazon Bedrock 还可以利用简单的 API 接口访问 Meta Llama2、Anthropic Claude、Titan、Stability AI、AI21 Labs、Cohere 等领先的基础模型,以构建和扩展其生成式 AI 应用程序。

9a5baa4e8f104d57bb0f4ce077e7aab1.png

Amazon Bedrock 提供易于使用的开发者体验,无论选择哪种模型,您都可以快速尝试灵活使用,并且只需最少的代码更改即可保持最新的模型版本。借助 Amazon Bedrock 知识库,可以安全地将基础模型连接到数据来源,以便在托管服务中增强检索,从而扩展基础模型已有功能,使其更了解特定领域和组织,越用越好,才是王道。

b3208b0ad2874702a73d3b26ecb09a00.png

体验链接:CloudAssist

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 个人主页:中杯可乐多加冰

🔥 限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

另外,我们已经建立了研学交流群,如果你也是大模型、生成式AI、T2I方面的爱好者或研究者可以私信我加入,如果你对本文的操作方面仍然不理解或者需要相关的指导,可以私信我。

评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

中杯可乐多加冰

请我喝杯可乐吧,我会多加冰!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值