让英雄查英雄，让好汉查好汉：LLM-as-a-judge综述

zenRRan

于 2024-12-09 20:35:22 发布

阅读量412

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247534261&idx=2&sn=230d5c02da8d4132ddde6cc711c325f8&chksm=eaa2ffe2e68e8c42e4f170338ba0c3893b05832206e2ef4949f83b99a07054db17e9f7832e94&scene=126&sessionid=0

版权

主题

让英雄查英雄，让好汉查好汉：LLM-as-a-judge综述

时间

12.11 20:30-21:30 周三

引言

最近，LLM出色的表现推动了“LLM-as-a-judge”概念的诞生，即利用LLM 对一组候选样本进行评分、排名和选择。LLM的强大性能与精心设计的评估流程相结合，为各种评估场景提供了细粒度和详细的判断，大大解决了传统评估方法的局限性，为 NLP 评估带来了新的可能。除了评估之外，LLM-as-a-judge 还被广泛应用于整个LLM生命周期，包括对齐、检索和推理等任务。它赋予LLM一系列先进的能力，如自我进化、主动检索和决策，推动其从传统模型向智能代理的转变。然而，随着 LLM-as-a-judge 的快速发展，判断中的偏见和脆弱性等挑战也随之出现。因此，系统地回顾当前的技术和未来的挑战对于推进基于 LLM 的判断方法非常有价值。

大纲

本次分享将从一下三个角度，全面系统的解析LLM-as-a-judge，并对领域未来发展方向做出展望：

LLM-as-a-judge可以用来评估哪些属性；
如何利用LLM-as-a-judge进行评估；
LLM-as-a-judge可以用在哪些场景。

论文相关链接：

Arxiv：https://arxiv.org/abs/2411.16594
Website：https://llm-as-a-judge.github.io/
Paper List：https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

嘉宾

李大卫，亚利桑那大学一年级博士生，在ACL，EMNLP，NAACL等顶级会议发表多篇论文，同时担任ARR，ICLR，NeurIPS，AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识，高效模型训练/推理，以及探索大模型的社会智能和社交智能。

入群

欢迎加入NICE每周分享交流群，在群内与分享嘉宾和观众进行深入交流讨论，并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

扫码加小助手微信进NICE每周报告分享交流群，备注"【昵称-单位-研究方向-NICE入群】"

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。