✨ 摘要
在大型语言模型(LLMs)日益强大的能力面前,我们愈发需要确保这些模型能够与人类的价值观和意图保持一致。现有的对齐框架往往需要昂贵的人力或高昂的计算成本。本文探索了一个有前途的中间地带,即利用一种资源消耗远低于顶级模型的弱 LLM,同时比纯人类反馈提供更多的自动化。我们进行了一项系统研究,以评估和理解弱 LLM 在生成对齐反馈方面的能力。我们的实证结果表明,弱 LLM 提供的反馈可以与完全由人类标注的数据相媲美,甚至超越它。我们的研究表明,模型规模对反馈效果的影响被最小化,为可扩展和可持续的对齐策略提供了新的思路。为深入理解弱 LLM 反馈下的对齐情况,我们进行了系列定性和定量分析,提出了人类反馈与弱 LLM 反馈之间的质量差异的新见解。
📖 引言
随着我们看到大型语言模型(LLMs)在各种应用中的令人印象深刻的能力(Brown et al., 2020;Achiam et al., 2023;Bubeck et al., 2023;Team et al., 2023;Anthropic, 2023),确保 AI 系统的有用性和无害性变得至关重要。AI 对齐旨在使 AI 行为与人类意图和价值观保持一致,确保安全和可取的行为。实现对齐的一个关键方法是提供一对响应