近日,自然语言处理领域权威国际会议NAACL2024(2024年北美计算语言学大会)在墨西哥城成功举行,由王选所万小军团队独立完成的研究论文《Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evalution》荣获会议杰出论文奖(Outstanding Paper Award)。
《Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation》
论文链接:https://aclanthology.org/2024.naacl-long.441.pdf
本篇论文主要针对当前自然语言生成(NLG)人工评价面临的评价指南不规范影响评价结果可靠性和可重复性的问题,首次对评价指南存在的缺陷进行了分类、定义和标注,并进一步探索了利用大模型进行缺陷检测的可能性,最后对评价指南的撰写提出了切实可行的建议。
该项工作由万小军老师指导两名北大硕士生阮洁和王文清完成。
NAACL会议在学术界和工业界享有盛名,与ACL、EMNLP一起视为自然语言处理领域三大权威国际会议。
2024年度NAACL会议共收到2434篇研究论文投稿,最终录用研究论文565篇(录用率23.2%),此外,在ACL Findings子刊上录用304篇(不计入主会论文)。经审稿人和领域主席初步推荐以及最佳论文评审委员会评审,共11篇研究论文获奖(其中2篇论文荣获Best Paper Award,6篇论文荣获Outstanding Paper Award, 3篇论文荣获Special Award)。
本篇论文是其中唯一一篇由中国内地科研机构独立完成的获奖论文。
具体获奖论文信息参见:https://2024.naacl.org 。
万小军
北京大学王选计算机研究所
万小军,北京大学王选计算机研究所研究员、博士生导师,主要研究方向为自然语言处理和大规模语言模型。
万小军团队长期从事自然语言生成(NLG)方向的理论方法研究与系统研制工作,前期研究工作曾荣获ACL 2017 Outstanding Paper Award与IJCAI 2018 Distinguished Paper Award,并研制推出多款AI写稿机器人,应用于多家媒体单位。
近几年,团队重点针对自然语言生成评价以及大模型安全性等技术方向开展研究,在NLG评价方面致力于构建高可信且低成本的NLG评价框架与模型,方便业界对各类NLG任务(例如摘要、复述、翻译、故事生成等)与模型进行多维度评价。
团队近期已训练推出专门用于NLG自动评价的大模型Themis,可不依赖参考答案对各类NLG任务进行细粒度可解释的评价。模型可下载使用:https://github.com/PKU-ONELab/Themis。
— 版权声明 —
本微信公众号刊载的所有内容,由北京大学王选计算机研究所微信自身创作、收集的文字、图片和音视频资料,版权属北京大学王选计算机研究所所有;从公开渠道收集、整理及授权转载的文字、图片及音视频资料,版权属原作者。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦