让英雄查英雄,让好汉查好汉:LLM-as-a-judge综述

主题

让英雄查英雄,让好汉查好汉:LLM-as-a-judge综述

时间

12.11  20:30-21:30 周三

引言

最近,LLM出色的表现推动了“LLM-as-a-judge”概念的诞生,即利用LLM 对一组候选样本进行评分、排名和选择。LLM的强大性能与精心设计的评估流程相结合,为各种评估场景提供了细粒度和详细的判断,大大解决了传统评估方法的局限性,为 NLP 评估带来了新的可能。除了评估之外,LLM-as-a-judge 还被广泛应用于整个LLM生命周期,包括对齐、检索和推理等任务。它赋予LLM一系列先进的能力,如自我进化、主动检索和决策,推动其从传统模型向智能代理的转变。然而,随着 LLM-as-a-judge 的快速发展,判断中的偏见和脆弱性等挑战也随之出现。因此,系统地回顾当前的技术和未来的挑战对于推进基于 LLM 的判断方法非常有价值。

大纲

本次分享将从一下三个角度,全面系统的解析LLM-as-a-judge,并对领域未来发展方向做出展望:

  1. LLM-as-a-judge可以用来评估哪些属性;

  2. 如何利用LLM-as-a-judge进行评估;

  3. LLM-as-a-judge可以用在哪些场景。

论文相关链接

  • Arxiv:https://arxiv.org/abs/2411.16594

  • Website:https://llm-as-a-judge.github.io/

  • Paper List:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

嘉宾

69b8169db7f9c376443cbac3c421a7c8.jpeg

李大卫,亚利桑那大学一年级博士生,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。

入群

欢迎加入NICE每周分享交流群,在群内与分享嘉宾和观众进行深入交流讨论,并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

e0d2d62c3bce5a57a8da76a291ccd714.png
扫码加小助手微信进NICE每周报告分享交流群,备注"【昵称-单位-研究方向-NICE入群】"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值