摘要:人类反馈在使大型语言模型(LLMs)与人类偏好保持一致方面发挥着关键作用。然而,这种反馈常常存在噪声或不一致,这可能会降低奖励模型的质量并阻碍模型与人类偏好的对齐。尽管已经提出了各种自动化数据清理方法来缓解这一问题,但对这些方法的有效性和泛化能力进行系统评估仍然缺乏。为了填补这一空白,我们引入了第一个全面的基准测试,用于评估在LLM对齐背景下13种偏好数据清理方法。PrefCleanBench提供了一个标准化的协议,用于评估清理策略在不同数据集、模型架构和优化算法中的对齐性能和泛化能力。通过统一不同的方法并严格比较它们,我们揭示了决定数据清理在对齐任务中成功的关键因素。这一基准测试为通过提高数据质量来改进LLM对齐的合理化和可复现方法奠定了基础,强调了数据预处理在负责任的AI开发中至关重要但尚未得到充分探索的作用。
论文标题: "Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment"
作者: "Min-Hsuan Yeh, Yixuan Li"
发表年份: 2025
原文链接: "https://www.arxiv.org/pdf/2509.23564"
代码链接: "https://github.com/deeplearning-wisc/PrefCleanBench"
关键词: ["LLM对齐", "偏好数据清洗", "基准测试",

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



