Claude AI 评测

我们几乎可以肯定地认为 2024 年将被视为定义一个新时代的开始。人工智能终于兑现了早期的承诺,着实到来了。在大型语言模型(LLMs)的争斗中,这一点更为明显,这些模型正是革命的核心。

这些 LLMs 是我们在电脑、手机和网络上使用的工具,用于访问人工智能的力量。它们通常被用于从编写新网站到撰写电子邮件、演示文稿等各种任务。无论是键入还是语音输入问题,它们都会给出您需要的答案。这有点像增强版的网络搜索。

无论您是人工智能的信徒还是怀疑者,都无法否认全球范围内正在发生的巨大变化,人们和企业正在部署这些工具以认真应对个人和业务任务。

在前线的两个主要角色分别是 OpenAI 的 ChatGPT 模型和 Anthropic 的 Claude。在这两者中,最大的惊喜是 Claude 在其短暂的生命周期内迅速改进。Anthropic 由前 OpenAI 高管 Dario 和 Daniela Amodei 兄妹于 2021 年创立,旨在提供一个“公共利益公司”作为当时已确立的 AI 公司的替代方案。

公司在2023年推出了 Claude LLM,称之为一个“安全可靠”的模型,专注于避免人工智能风险。尽管获得了谷歌和亚马逊超过60亿美元的投资承诺,公司首个模型 Claude 推出后公众反响平平。人们觉得它过于受限,无法用于实际的广泛用途。

然而,2024年6月发布的 Claude 3.5 Sonnet 真正点燃了AI世界,展示了其在广泛用途上的非凡实用性和多功能性。突然间,OpenAI 遇到了一个强劲的对手,许多人认为它在编程和一般思维链任务上优于ChatGPT。

所有这些都使得它值得被评为世界顶尖的大型语言模型之一。

Claude评测:初印象

Claude

(图片来源:Claude)

在Claude.ai注册一个Anthropic账户很简单。用电子邮件或Google账户登录后,您可以立即开始使用提示框。默认的免费账户每分钟最多请求5次,每天限制使用30万tokens。听起来很多,但如果您真正深入一个项目,很容易达到这些限制。

基本上,如果您想做简单的文本工作之外的任何事情,比如摘要或翻译,那么您最好升级到每月20美元的专业计划。在这个级别,您可以基于按需支付的方式每分钟享受4000次请求。

另一个好的选择是使用第三方应用程序和Claude API,它似乎没有明显的速率限制。我经常使用 TypingMind.com 的 API ,按使用量支付,非常棒。唯一的问题是目前API用户无法访问Claude的Artifacts功能,但希望很快会实现。

Claude评测:实用体验

需要注意的一点是,Claude 的宇宙分为两个部分。Claude chat (Claude.ai) 是大多数人会使用的面向公众的聊天机器人。然而开发者还可以注册控制台版本,它提供了更深入的提示管理和工程,但没有非常酷的 Artifacts 功能。您可以使用相同的电子邮件注册这两种版本,但它们在使用和计费方面仍然是分开的,这有点令人困惑。

为撰写这篇评测,我使用了标准聊天模式和新上线的Artifacts功能进行了一些测试。Artifacts是一项全新的功能,它在提示窗口旁边增加了一个所见即所得(WYSIWYG)窗口,这样可以实时预览生成的代码效果。这种方式相当出色,可以让你的创造过程在眼前呈现。此外,结果背后的代码只需轻轻一点即可查看或下载,这让你可以轻松地进行迭代和测试,直到最终形成完美无缺的方案。

小贴士:Artifacts功能默认是关闭的。你需要点击Claude首页左下角的账户名,并通过“Feature Preview”菜单手动开启。

聊天模式在处理简单任务时表现非常出色,速度快且准确,但在应对更复杂的需求时会显得有些力不从心。有一个值得一提的很棒功能是,如果在迭代你的想法时出现了错误,只需将错误信息复制粘贴到Claude的聊天框内,AI通常能立即修复这个问题。非常酷。

Claude

(图片来源:Claude)

例如,使用YouTube API构建一个YouTube评论分析器网页应用,仅耗时几秒。实际上,生成YouTube API比创建这个应用花的时间更长,而我用来优化结果的几次迭代也很轻松。

然而,当我尝试创建一个更复杂的互动食谱应用,且从上传的PDF文件中提取数据时,问题开始变得棘手。但我很清楚问题出在哪里。由于我的提示需求过多,超出了上下文窗口的限制。

Claude

(图片来源:Claude)

我可以在几分钟内启动一个简单版本的应用程序,但当我尝试通过增加更多互动性来进行一些优化时,超过了上下文空间,Claude开始出现错误。很遗憾,因为它之前做得相当不错。我想,如果多花点时间和优化提示,完全可以避免这个问题。

Claude

(图片来源:Claude)

如果我是一个现实世界中的程序员,本可以继续手动完成工作,但作为一个充满热情的业余爱好者,我无能为力。不过,可以肯定的是,很快这些大型语言模型(LLMs)将会为每个有点欲望的人按需制作游戏和应用。

我还想测试一下Console应用程序,因为它是Claude新推出的产品差异化功能之一。Console的一个非常有用的功能是Workbench,在使用提示前,可以在这里进行测试、评估和改进。实际上,Workbench证明是一个巨大的时间和资金节省。通过在使用提示前测试不同组合,你可以看到实际结果,评估模型是否对请求进行良好响应。

Claude

(图片来源:Claude)

Workbench的两个突出功能是能够进行深入、多层级的测试,以及提供的现成提示库,这可以加速整个生产过程。然而,Console的真正目的是帮助公司运行团队以控制其AI开发。它有一些功能,可以方便地邀请和分享与协作者,以及分配API密钥和访问参考文档。

Claude

(图片来源:Claude)

OpenAI 提供了类似的体验,其 Playground 包含更多的功能,如微调和助理创建器。然而,我并不确定这是否对大多数人的需求有用。例如,微调通常是最后的手段,因为更好的提示工程和函数调用通常可以在一开始解决许多完成问题。此外,组装、清理和组织相关数据集也并非易事,这反过来会影响微调的有效性。

Claude

(图片来源:Claude)

无论如何,Anthropic 的工坊和账号中心功能显示了公司对企业市场的承诺。它为简单提供基本产品的LLM供应商和那些专注于为客户提供有价值的AI生态系统的供应商之间划清了界限。你可以抓取提示代码、跟踪版本,并调整从模型设置到变量以及系统提示的一切,这使这里成为一个成熟的、能够完成实际工作的地方。Anthropic 这方面的产品建设表现出色。

Claude 评测:

对于AI、聊天机器人和LLM来说,现在还只是早期阶段,因此任何评测都要考虑这个前提。我们正在见证一场真正的技术革命的初步表现,而不应期望一开始就有奇迹出现。话虽如此,Anthropic 在过去几个月里所做的工作,特别是使其产品——尤其是 Claude 3.5 Sonnet——在市场上具有竞争力,确实令人惊叹。这个最新的模型让公司在许多领域,尤其是编程助手方面处于领先地位。

这并不是说其他模型在不同的应用领域不具有平等或更好的表现,但人们似乎更倾向于低调的 Claude 体验。从个人角度来说,3.5 Sonnet 现在是我每天首选的模型,这也反映了 OpenAI 最近产品的平淡表现。我毫不怀疑,这场比赛才刚刚开始,很快我们将看到来自世界各地的AI公司带来的非凡成果。但在那之前,我很高兴能享受这篇令人印象深刻的美国散文。

总结:

2024年将标志着人工智能新时代的开始,特别是大型语言模型(LLMs)的崛起。这些模型不仅应用于编写新网站、撰写电子邮件和制作演示文稿等任务,还能够通过键入或语音输入提供所需答案。最具代表性的两个模型是OpenAI的ChatGPT和Anthropic的Claude。Claude近来表现突出,尤其是2024年6月发布的Claude 3.5 Sonnet,其在广泛用途上的实用性和多功能性引发了业界的广泛关注。

Claude账号注册过程简单,免费账户每分钟最多请求5次,每天限制使用30万tokens,假如需要更多功能可以升级到每月20美元的专业计划。Claude的新功能Artifacts和Console提供了从生成代码实时预览到多层级提示管理的多种实用功能,帮助开发者更高效地完成项目。

然而,Claude在处理更复杂任务时,仍然存在挑战。这种情况下,提示工程和人工修正是解决问题的关键。总体而言,Claude 3.5 Sonnet的推出提升了Anthropic在编程助手领域的竞争力。

在使用先进AI技术如Claude的同时,企业若能结合光年AI的智能化私域流量管理,将可进一步提高效率和客户触达效果。

  • 15
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值