Claude 3 在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,重新树立大模型基准。
1. product
2. Main
2.1 核心能力
-
拥有前所未有的长语境和记忆能力,所有型号支持 100 万 token 上下文;在此基础上,Claude 3 Opus 不仅实现了接近完美的召回率,准确率超过 99%。
-
全新的视觉多模态能力, 能够处理各种模态,包括照片、图表和各类流程图、PDF 和 PPT 等。
-
可以遵循复杂的多步骤指令, 并擅长以 Json 格式生成流程的结构化输出。
-
更智能、更快、更安全
Anthropic 宣称将在未来对该系列不断更新迭代,让用户可以为其特定应用选择智能、速度和成本的最佳平衡。
2.2 打榜表现
2.3 缺点
- 相对于ChatGPT,目前Claude的全系产品均不能直接链接互联网查询资料。可能没有互联网巨头的加持。
- 国内暂不能使用,注册需要外网及国外手机号码验证,收费(应该没开源)。
- 多语言推理能力的不完备,在处理小语种时性能较不稳定。
- 多模态能力方面的准确性有待提高,Claude模型有时可能生成关于图像的不准确信息和描述。性能有时也会在处理小图像或低分辨率图像时降低。
- 论文中提到:随着时间的推移,决定Claude“个性”和能力的数据和影响因素变得相当复杂。在简单可自动化的方式中平衡这些因素,跟踪它们,以及一般减少训练Claude的复杂性,仍然是我们的关键研究问题。
大模型,还只是小部分人的狂欢。ChatGPT的更大的贡献可能是AI技术的普及化。
2.4 应用方向、发展及合作
Anthropic在Claude 3的发布博客中介绍了三款模型的潜在应用方向,带着浓浓的ToB商业化气息。
Claude 3 Opus:任务自动化,跨 API 和数据库规划和执行复杂的操作、交互式编码;研发,研究回顾、集思广益和假设生成、药物发现;策略,图表、财务和市场趋势的高级分析、预测。
Claude 3 Sonnet:数据处理,RAG 或对大量知识的搜索和检索;销售,产品推荐、预测、定向营销;节省时间的任务,代码生成、质量控制、从图像中解析文本。
Claude 3 Haiku:客户互动,实时互动、翻译中快速、准确的支持;内容审核,捕捉危险行为或客户请求;节省成本的任务,优化物流、库存管理、从非结构化数据中提取知识。
外界一直认为Anthropic是一家有着重度ToB基因的公司。
Anthropic在C轮融资中,引入了Google、Salesforce、Zoom等技术和服务市场上的ToB科技巨头,这些合作伙伴对AI公司的诉求必然是将先进的AI技术集成到自己的产品和服务中,以提高效率、创新能力和竞争力。
此外,Anthropic已经与Zoom开展合作,旨在“构建以可靠性、生产力和安全性为中心的面向客户的AI产品”,也清晰地表明了公司的B2B基因。这种合作通常涉及开发能够为企业提供具体价值的解决方案,如改善客户服务、自动化工作流程或提供决策支持等。
Anthropic还与波士顿咨询集团(BCG)合作,旨在将负责任的生成式AI技术引入到企业客户中。通过这一合作,BCG的客户可以直接利用Anthropic的AI系统,包括其最先进的模型Claude 2,这些系统专注于可靠性、可解释性和可控性。
目前,Anthropic声称已拥有多个来自不同行业(包括医疗保健、人力资源和教育等)的客户。
在企业服务和ToB市场上,虽然OpenAI也推出了ChatGPT Enterprise版以及企业的API接口,但相对于Anthropic与企业的深度合作,则ToB属性轻得多。
从这次Claude 3的中提及的很多重点也可以看出,Anthropic希望在商业化方面,走出一条与OpenAI不同的道路。
3. My thoughts
大模型的出现不断刷新着人们对于机器智能的认知。国内人工智能研究实力 和 国产大模型性能并不弱于国外,但为什么国内相关模型在国内的热度明显低于国外呢?是不属于同一竞争赛道吗?还是国内科研和技术派的注意力被自媒体带跑偏了?
Reference
https://www.anthropic.com/news/claude-3-family
https://mp.weixin.qq.com/s/PCGnLQx-cJ1Y0GKX1sjLPw
https://mp.weixin.qq.com/s/qEBNNtZoI_vHWRvftGii6A