本文是LLM系列文章,针对《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》的翻译。
摘要
从人类反馈中强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好相匹配,但收集高质量的人类偏好标签是一个关键瓶颈。我们对人工智能反馈(RLAIF)中的RLHF与RL进行了正面比较,这是一种由现成的LLM代替人类标记偏好的技术,我们发现它们也带来了类似的改进。在总结任务中,在约70%的情况下,人类评估者更喜欢RLAIF和RLHF的生成,而不是基线监督的微调模型。此外,当被要求对RLAIF和RLHF摘要进行评分时,人类更喜欢两者的评分相同。这些结果表明,RLAIF可以产生人类水平的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。