主题
让英雄查英雄,让好汉查好汉:LLM-as-a-judge综述
时间
12.11 20:30-21:30 周三
引言
最近,LLM出色的表现推动了“LLM-as-a-judge”概念的诞生,即利用LLM 对一组候选样本进行评分、排名和选择。LLM的强大性能与精心设计的评估流程相结合,为各种评估场景提供了细粒度和详细的判断,大大解决了传统评估方法的局限性,为 NLP 评估带来了新的可能。除了评估之外,LLM-as-a-judge 还被广泛应用于整个LLM生命周期,包括对齐、检索和推理等任务。它赋予LLM一系列先进的能力,如自我进化、主动检索和决策,推动其从传统模型向智能代理的转变。然而,随着 LLM-as-a-judge 的快速发展,判断中的偏见和脆弱性等挑战也随之出现。因此,系统地回顾当前的技术和未来的挑战对于推进基于 LLM 的判断方法非常有价值。
大纲
本次分享将从一下三个角度,全面系统的解析LLM-as-a-judge,并对领域未来发展方向做出展望:
LLM-as-a-judge可以用来评估哪些属性;
如何利用LLM-as-a-judge进行评估;
LLM-as-a-judge可以用在哪些场景。
论文相关链接:
Arxiv:https://arxiv.org/abs/2411.16594
Website:https://llm-as-a-judge.github.io/
Paper List:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge
嘉宾

李大卫,亚利桑那大学一年级博士生,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。
入群
欢迎加入NICE每周分享交流群,在群内与分享嘉宾和观众进行深入交流讨论,并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
