论文速读|LLM Evaluators Recognize and Favor Their Own Generations
论文信息:
简介:
这篇论文探讨了大型语言模型(LLMs)在自我评估时出现的自我偏好问题。具体来说,它研究了LLMs在评估文本时倾向于给自己生成的文本打高分,而人类评估者则认为这些文本与其他LLM或人类生成的文本质量相当。论文的核心问题是探究LLMs是否因为能够识别出自己的输出而产生这种自我偏好,还是这种偏好仅仅是巧合。研究动机在于自我评估在LLM生命周期中变得越来越重要,尤其是在奖励建模、基于模型的基准测试、自我完善和宪法AI等方法中。LLMs作为评估者时,其评估的中立性受到质疑,可能导致系统性偏差。这种自我偏好偏差不仅影响了模型间的公平比较,还可能对AI的安全性和可靠性构成威胁。因此,理解并减轻自我偏好对于提高LLMs的评估准确性和安全性至关重要。