Claude 3惊喜上线:多模态能力比肩GPT-4V

5a803c7c7586b2c488ad4c956e970751.jpeg

来源:大数据文摘授权转载自AI科技评论

作者:赖文昕、郭思

编辑:陈彩娴

过去不到一个月,OpenAI 扔出 Sora 这个重磅炸弹后成为全球焦点,不断推出的视频更是赚足眼球、热度不减。昨晚,Anthropic 突然惊喜上线,时隔八个月携着 Claude 3 走来,让世界再次将目光聚焦到这一个被视为 ChatGPT 强大竞争对手之一的多模态模型。

响应速度达即时水准,长文本与多模态双拳出击

c665ddbf609b8e504e42d19bcb015d5d.jpeg

据 Anthropic 官方表示,Claude 3 是针对不同功能的一个模型系列,分别是:Opus、Sonnet 和 Haiku。尽管 Anthropic 并未给出 Claude 3 模型的具体参数,但也公布了此三个版本在各自性能和适配的任务上的差异,具体表现为:

  • Claude 3 Opus——最智能的模型,可跨 API 和数据库规划和编码,在药物研发、市场分析等高度复杂的任务上具有最佳性能。

  • Claude 3 Sonnet——平衡智能和速度,其高耐用性更适合企业,更实惠和适合规模化。

  • Claude 3 Haiku——最快、最紧凑的模型,具有近乎即时的响应能力,能提供无缝问答体验。

目前,Opus 和 Sonnet 现已可以使用,而 Claude 的 API 也已在159 个国家/地区广泛开放。其中,开发者们可以在官网上免费体验最经济实惠的 Sonnet,而 Opus 则需要 订阅 Claude Pro 后付费使用。

与大半年前发布的 Claude 2 相比, Claude 3 有什么令人瞩目的进步呢?

首先,Claude 3 响应速度接近即时。

Claude 3 模型支持实时对话、自动完成和数据提取任务。对于绝大多数工作负载,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但拥有更高的智能水平。而 Haiku 作为速度最快且最具成本效益的型号,它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens)。

其次,Claude 3 大大增强了对语境的理解,减少了不必要的拒绝。

Anthropic 在语境理解的领域取得了有显著进展。与前几代模型相比,Claude 3 Opus、Sonnet 和 Haiku 发出拒绝回答提示的可能性明显降低,展现出 Claude 3 模型家族能对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

141d63f68abcf37e2155ca0e243a04f9.jpeg

另一方面,Claude 3 还提高了回答的准确性。Anthropic 官方表示,他们使用了大量复杂的事实问题来针对解决当前模型中已知的弱点,将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型“承认不确定性”表示它不知道答案,而不是提供不正确的信息。

654d698a3fe1ab5647bf58c7c197e1b6.jpeg

与 Claude 2.1 相比,Opus 在具有挑战性的开放式问题上的准确性提高了一倍,同时也减少了错误答案的水平。另外, Anthropic 很快还将在 Claude 3 模型中启用引用功能,以便用户可以指向参考材料中的精确句子来验证他们的答案。

尽管由 Sora 引发的文生视频热潮似乎已成为2024年的新趋势,但毋庸置疑的是,以长文本为核心的大语言模型依旧是各大科技巨头的兵家必争之地。

同老对手OpenAI GPT-4与谷歌 Gemini Pro相比,Claude 3 的优势又在哪里呢?

Claude 本次更新的一大亮点,在于长文本能力的升级以及对多模态能力的突破。

Anthropic 在推出 Claude 3 时升级了其复杂视觉功能,使其领先于其他模型,多模态能力比肩GPT-4V。

Claude 3 可以处理各种视觉格式,包括照片、图表、图形和技术图表,在数学推理、文档视觉、科学图表等各方面性能超越 GPT-4V,能让企业客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

4c816120bf88f87a99a73bac0d7df855.jpeg

至于在原本就拥有的长文本分析优势上, Anthropic 也做出了升级。

Claude 3 提升了上下文对话窗口,最高达到200k。值得一提的是,它还具有超强的回忆能力。Claude 3 Opus 能够 “大海捞针”(NIAH),即通过将一个特定的句子(即“针”)隐藏在一堆看似杂乱无章的文档(即“大海”)中,然后询问一个只有通过找到那个“针”才能回答的问题,从而考察模型的信息回忆能力。

db96adbb0c8eabcf04a92dd936b28879.jpeg

研发团队通过在每个提示中使用 30 个随机“针”对其中之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。测试证明,Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至可以通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

英伟达首席AI科学家 Jim Fan 在 Claude 3 发布后立即表示其他LLM也应该像 Anthropic一样出击金融、医药等需要专业意见和优质报告的领域:

dca263384dcddc1d6ed2e5121e9b3eb0.jpeg

Claude 3 的发布极为低调,直接在X上丢出一个链接。而最让人眼前一亮的便是,Claude 3发布后即提供了免费试用的机会,此举吸引了大量用户积极参与体验。在社交媒体X上,一位博主发起了一场有趣的测试挑战,上传了一张酷狗的图片,并使用免费版Claude 3进行尝试,以检验其对图像内容的理解和描述能力。最终结果显示,相较于ChatGPT,Claude 3对于该图片信息的解读更详尽、贴切。

97086d3c39ae377fd71f2f1d83c4ffda.jpeg

4ce5becc378d79aeef2cde3c09f77c0e.jpeg

而另一位博主则对一段复杂的英文内容进行了测试翻译,结果显示Claude在该任务上的表现优于GPT-4。尤其值得一提的是,Claude具备一项独特功能,即能够主动对未经排版的文本进行合理分段和格式化处理,显著提升了阅读体验,而这项能力是GPT-4所不具备的。此外,Claude的翻译输出内容也比GPT-4更为详尽。

接下来,在设计稿组件截图还原的挑战中,该博主特别强调了风格一致性的重要性,Claude对此展现了卓越的处理能力,对于复杂的设计元素和细节把控得恰到好处,高度接近原始设计稿的要求。相比之下,GPT-4在此类任务上一直难以达到同样水准。

最后,在多模态场景下,博主让Claude解读一篇论文的部分内容,其分析逻辑清晰、准确。尽管如此,在信息丰富度方面,Claude的表现略逊于GPT-4,尚有提升空间,特别是在多模态信息整合与呈现的能力上,仍有待进一步加强。

51cfe43b2ad39af249e102b3d781b992.jpeg

双管齐下锁定企业市场:Claude 3的定价策略与安全优先理念

Claude 3,这款颠覆了大模型领域格局的AI产品背后母公司Anthropic,是一家战略上秉承谨慎与安全优先原则的初创企业。自公司创立之日起,其核心科研工作始终聚焦在人工智能治理和模型安全性的强化上。即使面对2023年ChatGPT在全球范围内引发的性能竞赛热潮,Anthropic并未盲目追求技术性能指标上的超越,而是坚守对AI安全的重视。

去年9月,Anthropic获得了亚马逊高达40 亿美元,约 280 亿人民币的重磅投资。获得巨头青睐的原因,一方面是其卓越的技术能力,另一方面,业界普遍认同,该公司的技术创新策略首先是确保服务于构建可靠且安全的人工智能框架,其次才是对技术极限进行探索和突破。

这意味着,在追求卓越的同时,Anthropic始终坚持将安全性作为其AI产品和技术研发的基石。

其创始人 Daniela Amodei 与 Dario Amodei 是两兄妹。

值得一提的是,Daniela Amodei 是该公司的总裁,曾负责监督 OpenAI 的政策和安全团队在加入 OpenAI 之前,她曾公开表示 Anthropic 的安全第一政策是其主要差异化优势之一。这也决定了Claude系列以安全为首的技术基因。

在Claude3 技术文档中,我们也看到了Anthropic对安全理念的一以贯之。

Claude 3团队表明:现阶段已经组建了多个专门团队,负责监控和减少一系列广泛的风险,包括错误信息、儿童性剥削材料(CSAM)、生物滥用、选举干预以及自主复制能力等。并将持续开发如宪法式 AI 等方法,以提升模型的安全性和透明度,并对模型进行了调整优化,以降低由新型模态引发的隐私问题。

对于日益复杂的模型中所存在的偏见问题,根据问题回答偏见基准测试(BBQ),Claude 3 模型相比之前的产品表现出更少的偏见。

团队将继续致力于推动减少偏见并促进模型更大程度中立性的技术进步,确保它们不会偏向任何特定的政治立场。

c36f144ce11da71bb92abeb96d5d297b.jpeg

实质上,关于AI 安全的问题,在此前一直是一个争议的热点。曾获得图灵奖、被称为“AI 教父”的加拿大计算机科学家 Yoshua Bengio就曾呼吁,AI 领域被少数科技公司控制的可能性,将会是该技术带来生存风险之后的“第二大问题”。

Anthropic 的创始团队从 OpenAI 出来,并且参加过 GPT-3 的核心研发工作,目前也许是除了微软与 OpenAI 之外,最了解 OpenAI 与 GPT 系列大模型的公司。而他们选择的道路与Open AI相比也正好印证了技术路线的分歧:到底是性能先行还是兼顾技术治理。

这也是他们在发展理念上的终极竞争。

而关于Claude 3 带给行业接下来的影响,除了对于Open AI 霸主的地位的冲击外,有行业人士直接表示,行业有望很快从模型竞争转变为工作流竞争。

91ddca9e93c099f239288138b2cc42ca.jpeg

该观点的形成与Claude 3系列模型在定价策略上的与众不同相关。目前,Claude 3系列中最顶级版本Claude 3 Opus的价格设定凸显其高端定位,对于每100万条token的使用费用为15美元,明显高于GPT-4 Turbo的10美元收费标准。

然而,Anthropic也透露,Claude 3系列中性能相对较低的Sonnet和Haiku版本,在处理相同数据量时的收费至少比Claude 3 Opus低五倍。

举例来说,如果用Claude来创建电子表格并比较其不同层级模型与GPT-4 Turbo以及GPT-3.5的成本,可以发现,在高端产品线上,Claude 3 Opus在输入和输出成本上均超过了GPT-4 Turbo;但在小型或中低端模型方面,例如Claude 3 Haiku的定价则较GPT-3.5-turbo-0125更为经济实惠。

这种价格差异使得业界开始讨论小规模模型的市场前景,有人甚至预测小模型可能在未来市场竞争中逐渐淡出。

与此同时,Anthropic对AI安全性的高度重视及定价策略上的亲民设计,显示了该公司商业模式上的独特布局,即更倾向于瞄准具有较高付费能力的企业级客户群体。

Claude 3发布后,市场上对下一代大模型GPT-5的期待声浪愈发高涨,许多业内专家认为,这不仅标志着Claude的崛起时刻,同时也是Open AI展现实力的关键阶段。有网友乐观预计,也许不久就能见证GPT-4.5的诞生。虽然最终结果有待观察,但可以预见的是,这场围绕大模型技术的竞争即将迎来新一轮的升级与高潮。

2331c130b750849cc49a805ac3a16460.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

7e96bb5e581df04437a9afb9497e2d67.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于微信小程序的家政服务预约系统采用PHP语言和微信小程序技术,数据库采用Mysql,运行软件为微信开发者工具。本系统实现了管理员和客户、员工三个角色的功能。管理员的功能为客户管理、员工管理、家政服务管理、服务预约管理、员工风采管理、客户需求管理、接单管理等。客户的功能为查看家政服务进行预约和发布自己的需求以及管理预约信息和接单信息等。员工可以查看预约信息和进行接单。本系统实现了网上预约家政服务的流程化管理,可以帮助工作人员的管理工作和帮助客户查询家政服务的相关信息,改变了客户找家政服务的方式,提高了预约家政服务的效率。 本系统是针对网上预约家政服务开发的工作管理系统,包括到所有的工作内容。可以使网上预约家政服务的工作合理化和流程化。本系统包括手机端设计和电脑端设计,有界面和数据库。本系统的使用角色分为管理员和客户、员工三个身份。管理员可以管理系统里的所有信息。员工可以发布服务信息和查询客户的需求进行接单。客户可以发布需求和预约家政服务以及管理预约信息、接单信息。 本功能可以实现家政服务信息的查询和删除,管理员添加家政服务信息功能填写正确的信息就可以实现家政服务信息的添加,点击家政服务信息管理功能可以看到基于微信小程序的家政服务预约系统里所有家政服务的信息,在添加家政服务信息的界面里需要填写标题信息,当信息填写不正确就会造成家政服务信息添加失败。员工风采信息可以使客户更好的了解员工。员工风采信息管理的流程为,管理员点击员工风采信息管理功能,查看员工风采信息,点击员工风采信息添加功能,输入员工风采信息然后点击提交按钮就可以完成员工风采信息的添加。客户需求信息关系着客户的家政服务预约,管理员可以查询和修改客户需求信息,还可以查看客户需求的添加时间。接单信息属于本系统里的核心数据,管理员可以对接单的信息进行查询。本功能设计的目的可以使家政服务进行及时的安排。管理员可以查询员工信息,可以进行修改删除。 客户可以查看自己的预约和修改自己的资料并发布需求以及管理接单信息等。 在首页里可以看到管理员添加和管理的信息,客户可以在首页里进行家政服务的预约和公司介绍信息的了解。 员工可以查询客户需求进行接单以及管理家政服务信息和留言信息、收藏信息等。
数字社区解决方案是一套综合性的系统,旨在通过新基建实现社区的数字化转型,打通智慧城市建设的"最后一公里"。该方案以国家政策为背景,响应了国务院、公安部和中央政法会议的号召,强调了社会治安防控体系的建设以及社区治理创新的重要性。 该方案的建设标准由中央综治办牵头,采用"9+X"模式,通过信息采集、案(事)件流转等手段,实现五级信息中心的互联互通,提升综治工作的可预见性、精确性和高效性。然而,当前社区面临信息化管理手段不足、安全隐患、人员动向难以掌握和数据资源融合难等问题。 为了解决这些问题,数字社区建设目标提出了"通-治-服"的治理理念,通过街道社区、区政府、公安部门和居民的共同努力,实现社区的平安、幸福和便捷。建设思路围绕"3+N"模式,即人工智能、物联网和数据资源,结合态势感知、业务分析和指挥调度,构建起一个全面的数据支持系统。 数字社区的治理体系通过"一张图"实现社区内各维度的综合态势可视化,"一套表"进行业务分析,"一张网"完成指挥调度。这些工具共同提升了社区治理的智能化和效率。同时,数字社区还提供了包括智慧通行、智慧环保、居家养老和便民服务等在内的多样化数字服务,旨在提升居民的生活质量。 在硬件方面,数字社区拥有IOT物联网边缘网关盒子和AI边缘分析盒子,这些设备能够快速集成老旧小区的物联设备,实现传统摄像设备的智能化改造。平台优势体现在数字化能力中台和多样化的应用,支持云、边、端的协同工作,实现模块化集成。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值