大模型哪家强，拉出来比一比就知道-CSDN博客

本文链接：https://blog.csdn.net/kaka0722ww/article/details/147475512

在竞争激烈的AI领域,一个由大型模型系统组织建立的"Chatbot Arena Leaderboard"排行榜备受瞩目。这个排行榜通过匿名用户对不同AI模型回答的投票,结合Elo评分系统进行排名。

截止2024年3月29日,该平台已纳入了超过51万用户对76个模型的51万余次投票评分。这一独特的评估方式,不仅反映了AI模型在真实场景下的表现,更彰显了用户在与AI交互时的喜好和需求,为AI发展提供了宝贵的参考。

有一个相当知名的AI聊天机器人排行榜，「Chatbot Arena Leaderboard」 这个排行榜是由大型模型系统组织（Large Model Systems Organization）所建立的评估平台。

社群成员以匿名方式对两个不同的AI模型进行提问，然后进行投票，选出他们最喜欢的回答。最终，根据Elo评分系统（一种在象棋和其他竞技游戏中常见的评分系统）进行排名。

截止2024 年 3 月 29 日，这个排行榜总共纳入了超过511252个用户的对76个模型的投票。

null

■ 目前Chatbot Arena排行前五名分别是

Claude 3 Opus
GPT-4-1106-preview
GPT-4-0125-preview
Bard (Gemini Pro)
Claude 3 Sonnet

此外，该网站还提供了另外两种评估方式的排行榜。

MT-Bench[1]: 一组具有挑战性的多回合问题。我们使用 GPT-4 对模型响应进行评分。
MMLU[2] ：衡量模型在 57 项任务上的多任务准确性的测试。

MT-Bench

▋ MT-Bench 这是一套测试AI模型是否能像人类一样理解问题，并解决57个不同领域的问题。

这些问题涵盖了数学、历史、法律、电脑科学等多个领域。

null 基于MT-Bench的AI聊天机器人排行

■ 基于MT-Bench的AI聊天机器人排行

GPT-4-1106-preview
GPT-4-0613
GPT-4-0314
Owen1.5-72B-Chat
Mistral Medium

MMLU（5-shot）

▋ MMLU（5-shot）这也是一项评估AI模型能力的研究，但与前面的测试方式略有不同，这次是让AI充当裁判评价其他模型。

研究发现，像GPT-4这样强大的语言模型，与我们人类的偏好和判断相似度高达80%，而且成本更低。

null AI聊天机器人排行榜

■ 基于MMLU（5-shot）的AI聊天机器人排行

Claude 3 Opus
GPT-4-0314
Mistral-Large-2402
Claude 3 Sonnet
Claude-2.0

▋ 结论在这三种评分标准下，GPT-4持续稳坐第一名的宝座，而第2到5名的模型互相交替。

前五名中，GPT与Claude之间的竞争尤其激烈，这也是我的主观体验所感受到的。目前，其他模型尚未能胜过这两家。

关于Chatbot Arena

Chatbot Arena ( chat.lmsys.org ) 是一个由[3]LMSYS[4]和加州大学伯克利分校 SkyLab成员开发的开源项目。我们的使命是通过实时、开放和社区驱动的评估来促进大模型的发展和理解。我们推出了评估平台，供任何用户通过现实用例下的成对比较来对大模型进行评分，并定期发布排行榜。[5]

null Chatbot Arena

Chatbot Arena 是一个在线平台，用于测试和比较聊天机器人的性能。它提供了一个互动环境，让开发人员、研究人员和爱好者可以测试他们的聊天机器人模型，并与其他聊天机器人进行比较和竞争。

应用场景：

聊天机器人评估：Chatbot Arena 允许用户上传自己的聊天机器人模型，并对其性能进行全面评估。平台提供了一系列指标和评分标准，帮助用户了解聊天机器人的优点和不足。
竞争和基准测试：平台鼓励用户参与竞争，他们的聊天机器人可以与其他聊天机器人进行比较和排名。这为开发人员提供了一个基准测试环境，他们可以在此测试他们的模型并了解其相对于其他系统的表现。
算法和技术改进：Chatbot Arena 为研究人员和开发人员提供了一个测试新算法和技术的实验室。他们可以实验不同的方法，并根据平台提供的评价指标衡量其有效性。
教育和学习：该平台也可用作教育工具，帮助学生和爱好者了解聊天机器人的工作原理，并通过实践经验增强他们的技能。

使用方法：

注册和登录：访问 Chatbot Arena 网站并创建一个帐户。您可以选择使用您的电子邮件地址或现有社交媒体帐户注册。
上传聊天机器人：一旦登录，您可以上传自己的聊天机器人模型。平台支持各种编程语言和框架。您需要提供聊天机器人的源代码或 API 详细信息。
选择测试类别：Chatbot Arena 为不同的聊天机器人应用提供不同的测试类别，例如客户服务、一般知识或个性化聊天。选择最适合您的聊天机器人的类别。
测试和评估：平台将您的聊天机器人与其他参与者提交的聊天机器人进行匹配。您的聊天机器人将与他人进行对话互动，并由系统和人类评审团评估其性能。
查看结果：测试完成后，您将收到聊天机器人的详细性能报告。该报告将包括评分、指标和聊天记录，帮助您了解聊天机器人的表现并进行改进。
参与竞争：您可以选择让您的聊天机器人参与竞争，与其他参与者的聊天机器人进行比较和排名。这些比赛可能具有特定的主题或挑战，以展示聊天机器人的特定技能。
社区互动：Chatbot Arena 还拥有一个在线社区，用户可以在其中讨论他们的聊天机器人、分享最佳实践并相互学习。您可以参与论坛、博客和问答部分与志趣相投的人们进行交流。

Chatbot Arena 旨在为聊天机器人开发人员和爱好者提供一个协作和竞争的环境。通过参与该平台，您可以测试和改进聊天机器人的性能，并从社区中获得见解和反馈。请务必仔细查看平台的条款和条件以及任何特定比赛或挑战的规则。

常问问题

1、为什么要对大模型进行一个评估？

大多数大模型基准都是静态的，这使得它们很容易受到污染，因为这些大模型是根据互联网上大多数可用数据进行培训的。 Chatbot Arena 旨在通过提供来自真人的持续新提示的实时评估来缓解这一问题。我们还相信，该平台的开放性将吸引准确反映更广泛的大模型用户和真实用例的用户。

2、评估什么模型？为什么不是全部？

我们将不断增加新型号并淘汰旧型号。**由于我们的评估过程的成本和可扩展性，添加每个可能的模型是不可行的，即，可能需要太多的时间才能积累足够的选票来准确地评估每个模型。**如今，添加新模型的决定相当临时：我们根据社区的感知兴趣添加模型。我们打算在不久的将来正式确定他的流程。

3、为什么社区应该相信我们的评估？

我们力求提供透明度，所有工具以及我们正在使用的开源平台。我们邀请社区使用我们的平台和工具来统计重现我们的结果。

4、为什么只共享 20% 的数据，而不是全部？

Arena 的使命是确保评估的可信度。我们定期共享数据，以减轻 Arena 中某些用户分布或偏好偏差过度拟合的潜在风险。我们将根据社区的反馈积极审查此政策。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！