李开复笑了,零一大模型中国登顶,世界第七

由开放研究组织 LMSYS Org(Large Model Systems Organization)发布的 Chatbot Arena 已经成为 OpenAI、Anthropic、Google、Meta 等国际大厂 “龙争虎斗” 的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际 开放群众投票

时隔一周,在最新更新的排名中,类 “im-also-a-good-gpt2-chatbot” 的黑马故事再次上演,这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的 “Yi-Large” 千亿参数闭源大模型。

LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第 7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一。

零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT 系列占了前 10 的 4 个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic 之后,以开放金标准正式进击国际顶级大模型企业阵营

美国时间 2024 年 5 月 20 日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170 万全球用户真实投票数

值得一提的是,为了提高 Chatbot Arena 查询的整体质量,LMSYS 还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的 “你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS 公开表示,去除冗余查询后的榜单将在后续成为默认榜单

在去除冗余查询后的总榜中, Yi-LargeElo 得分更进一步,与 Claude 3 Opus、GPT-4-0125-preview 并列第四。

LMSYS 中文榜:GPT-4o 和 Yi-Large 并列第一

值得国人关注的是,国内大模型厂商中,智谱 GLM4、阿里 Qwen Max、Qwen 1.5、零一万物 Yi-Large、Yi-34B-chat 此次都有参与盲测,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。Yi-Large 的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。

“最烧脑” 公开评测:Yi-Large 位居全球第二

在分类别的排行榜中,Yi-Large 同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是 LMSYS 所给出的针对性榜单,以专业性与高难度著称,可称作大模型 “最烧脑” 的公开盲测。

在编程能力(Coding)排行榜上,Yi-Large 的 Elo 分数超过 Anthropic 当家旗舰模型 Claude 3 Opus,仅低于 GPT-4o,与 GPT-4-Turbo、GPT-4 并列第二。

长提问(Longer Query)榜单上,Yi-Large 同样位列全球第二**,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。**

**艰难提示词(Hard Prompts)**则是 LMSYS 为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS 认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

LMSYS Chatbot Arena:后 benchmark 时代的风向标

如何为大模型提供客观公正的评测一直是业内关注的重点。为了在固定题库中取得高分,不少机构采用了各种“刷榜”手段。这些做法导致大模型的实际能力变得难以评估,投资人也难以判断。

经过2023年的评测浪潮,业内对评测集的专业性和客观性有了更高的要求。LMSYS Org 发布的 Chatbot Arena 以其独特的“竞技场”形式和严谨的测试团队,成为全球业界的基准标杆,连 OpenAI 在发布 GPT-4o 前也在此匿名预发布和预测试。

不仅 Sam Altman,Google DeepMind 的 Jeff Dean 也引用 LMSYS Chatbot Arena 的数据来佐证 Bard 产品的性能。OpenAI 创始成员 Andrej Karpathy 甚至公开称赞 Chatbot Arena is “awesome”。

LMSYS Org 是一个由多所知名大学合作创立的开放研究组织,专注于开发大语言模型和评估工具。Chatbot Arena 采用横向对比评测思路,通过用户盲测和匿名投票,减少偏见,增加评测客观性。用户在 https://arena.lmsys.org/ 平台上进行投票后,所有投票数据会公开。

Chatbot Arena 使用Elo 评分系统量化模型表现,确保排名公平。Elo 评分系统是基于统计学的评价体系,广泛应用于国际象棋、围棋等竞技活动。通过这套系统,低分选手击败高分选手会获得更多分数,反之则较少。

Chatbot Arena 的评测过程涵盖了用户投票、盲测、大规模投票和动态评分机制,确保了评测的客观性、权威性和专业性,为行业提供了可靠的参考标准。这个平台非常专业,真正反映了大模型的实际应用表现

Yi-Large 以小搏大紧追国际第一阵营,登顶国内大模型盲测

此次 Chatbot Arena 共有 44 款模型参赛,既包含了顶尖开源模型 Llama3-70B,也包含了各家大厂的闭源模型。

在最新公布的Elo评分中,GPT-4o以1287分高居榜首,紧随其后的是GPT-4-Turbo、Gemini 1.5 Pro、Claude 3.0pus和Yi-Large,评分在1240左右。而Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet则以1200分左右的成绩大幅落后。

前六名的模型均来自OpenAI、Google、Anthropic等海外巨头,零一万物成为全球第四机构。GPT-4、Gemini 1.5 Pro等模型拥有万亿级别的参数规模,而Yi-Large以千亿参数量级紧追其后,一发布即跻身世界排名第七。

在LMSYS Chatbot Arena截至5月21日的总榜上,阿里巴巴的Qwen-Max大模型以1186分排名第12智谱AI的GLM-4大模型以1175分排名第15。

在大模型商业应用的浪潮中,模型的实际性能需要在具体应用场景中接受严格考验,传统的“作秀式”评测已无意义。为了促进行业健康发展,必须追求客观、公正、权威的评估体系

Chatbot Arena这样的评测平台显得尤为重要,它提供真实用户反馈,采用盲测机制避免结果操纵,并持续更新评分体系。大模型厂商应积极参与这类平台,通过用户反馈和专业评测证明其产品竞争力。这不仅提升品牌形象和市场地位,也推动行业健康发展,促进技术创新和产品优化。相反,忽视真实应用效果的厂商将难以在竞争中立足。

李开复:国内AI都不够好,GPT-5到来时我们将更落后

2024-05-13

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 17
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值