关于Anthropic新推出的Claude 3 你需要知道的5件事 - 人工智能领域的新星

在人工智能领域快速发展的背景下,一家新兴企业正在崛起,准备挑战OpenAI和谷歌等行业巨头的主导地位。这家名为Anthropic的公司是AI研究和开发的前沿企业,他们已经展示了他们的最新成果——Claude 3,这是一款承诺要重新定义自然语言处理领域的边界的语言模型。

Claude 3的推出已经在AI社群引起轰动,专家和爱好者都在期待着它可能带来的潜在影响。Ethan Mik教授,该领域的著名权威,已经把Claude 3誉为“GPT-4级别”的模型,甚至在它的基准测试结果公布之前。这种高度的评价为可能在AI世界中产生一场范式转变奠定了基础。

据Anthropic公司称,Claude 3的三个变种——Claude 3 Opus、Claude 3 Sonet和Claude 3 Hi Cou——在各种学科中设定了新的行业标准,包括推理、数学、编程、多语言理解和视觉任务。特别是旗舰Opus模型,据说在MMLU(本科生知识)、GPQ(研究生推理)和GSM 8K(基础数学)等基准测试上超过了GPT-4和Gemini 1.0 Ultra。

Anthropic公司的说法进一步得到了他们关于Claude 3 Opus在复杂任务上表现出“接近人类”水平的理解和流利度的声明的支持。然而,Jack Clark,Anthropic公司的资深人士,提出了谨慎的警告,认为还需要更多的先进评估来充分理解该模型的能力。

Anthropic提供的基准分数为Claude 3的表现描绘了一个引人入胜的画面。在评估本科生知识的MMLU基准测试中,Claude 3 Opus取得了惊人的90.1%的分数,超过了GPT-4的88.8%和Gemini 1.0 Ultra的87.9%。在研究生级别的专家推理领域,如GPQ基准测试所测量的,Claude 3 Opus再次脱颖而出,获得了72.2%的分数,超过了GPT-4的70.2%和Gemini 1.0 Ultra的68.9%。甚至在测试基本数学技能的GSM 8K基准测试中,Claude 3 Opus也以其58.9%的分数证明了其优越性,超过了GPT-4的55.1%和Gemini 1.0 Ultra的51.8%。

Claude 3的一个关键优势是其发布的时间。根据Hyperight公司的CEO Matt Schumer的说法,Claude 3的发布可能是为了利用Elon Musk和OpenAI之间的持续法律诉讼。这场诉讼指控OpenAI已经成为微软的封闭式子公司,而不是为了人类的利益追求开放的AI,这可能会阻碍OpenAI在未来不久释放改进的模型。

Claude 3的另一个独特之处在于它对长上下文窗口的重视。正如Matt Schumer所说,Anthropic公司一直将这一点作为区别之一,去年成为第一个发布10万上下文窗口的公司。

也许Claude 3最令人感兴趣的一点是其对合成数据在训练过程中的使用的潜在验证。根据Anthropic公司的技术报告,这些模型是在各种公开可用数据、第三方非公开数据、来自标签服务和承包商的数据以及内部生成的数据(假设是合成数据)的基础上训练的。这种方法挑战了关于合成数据可能会降低模型性能的普遍担忧,相反表明它可能是增强AI能力的一条可行道路。Nathan Lambert在视频中表示,“Claude 3的表现出色是对合成数据的巨大支持。”

Anthropic,与过去的像谷歌不同,不仅宣布了Claude 3,而且还使其广泛可用于测试和应用。Abacus公司的CEO Bindu Ready赞扬Anthropic“没有作出一些空洞的营销宣传”,并且随着宣布一起推出了Claude 3 API的普遍可用性。这种可访问性已经引起了像亚马逊这样的公司的兴趣,亚马逊已经宣布,通过其亚马逊Bedrock服务,将可以访问Anthropic最强大的AI模型,包括Claude 3。

随着AI社群热切期待Claude 3的全部影响,有一点可以肯定:Anthropic已经坚定地建立起自己作为赛跑中AI通用智能(AGI)的一支不容忽视的力量。凭借在基准测试中的优异表现、创新的训练数据方法、对可访问性的重视以及发布的战略时机,Claude 3代表了朝着真正智能机器迈出的重大一步。AI的未来可能会因这一卓越模型带来的进步而改写。
 

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值