Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记

AlphaFinance

已于 2024-06-09 11:11:58 修改

阅读量280

点赞数

分类专栏：机器学习文章标签：笔记人工智能 LLM 大模型

于 2024-06-09 10:39:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dragon_t1985/article/details/139558884

版权

机器学习专栏收录该内容

85 篇文章 19 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1

Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13

Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1

1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI

摘要

评估基于大型语言模型（LLM）的聊天助手具有挑战性，因为它们具备广泛的功能，现有基准不足以测量人类的偏好。为了解决这个问题，我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性，包括位置、冗长和自我提升偏见，以及有限的推理能力，并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性：MT-bench，这是一个多回合问题集；以及Chatbot Arena，这是一个众包战斗平台。我们的结果显示，像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好，达到超过80%的一致性，与人类之间的一致性相同。因此，LLM作为评审是一种可扩展和可解释的方式，可以近似人类偏好，这些偏好通常非常昂贵。此外，我们通过评估LLaMA和Vicuna的多个变种，展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在https://github.com/lm-

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记

MT-Bench 和 Chatbot Arena 是两个用于评估 LLM 聊天助手的新基准，分别侧重于多回合对话的质量和真实用户偏好。这两个基准的设计初衷是弥补现有基准在评估聊天助手人类偏好方面的不足，提供更准确和全面的评估方法。MMLU：重点评估模型在多任务、多领域的知识和理解能力。HELM：提供一个多维度的评估框架，全面评估模型的性能和实际应用中的各种表现。这两个基准各有侧重，MMLU 更关注模型的知识广度和准确性，而 HELM 则提供了一个全面的评估框架，涵盖了模型在实际应用中的多方面表现。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AlphaFinance 您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。