LMSys Chatbot Arena Leaderboard
由LM-SYS组织发布的一个大语言模型的评测排行榜,就是我们常说的著名的大模型匿名竞技场。
LMSys的Chatbot Arena采用的是众包的方式对大模型进行匿名评测。用户可以在他们的官网输入问题, 然后由一个或者多个匿名的大模型同时返回结果。用户根据自己的期望对效果进行投票。最终形成不同的大模型众包的评测结果。
LMSys的评测方法包括2个指标:
- Arena Elo得分 - 即借用全球围棋对弈排名的思想,当用户对同一个问题的不同模型进行投票时候,赢得的模型可以获得一定的分数,因此,这个分数越高,模型效果越好。
- MT-Bench得分 - LMSys的另一个评测指标是通过收集的全球不同用户的问题形成具有挑战性的复杂的多轮数据集,让不同的模型生成回复,然后让GPT-4这样的强大的模型对齐进行评估。LMSys官方的论文做过测试,GPT-4对模型评估的结果与人类偏好很接近。
国内网站:阶段性同步数据,LMSys Chatbot Arena Leaderboard最新AI大模型排行榜与Arena Elo评分、MT-Bench得分(官方数据 - 中国站)| 数据学习 (DataLearner)
官方网站:chat.lmsys.org
福布斯AI榜单
福布斯最近发布了2024年度AI 50榜单
估值最大的三家公司可能大家能猜到,分别是OpenAI、Anthropic和Databricks,它们的估值分别为860亿美元、184亿美元和430亿美元。
具体领域和详细排行阅读原文: