本文是LLM系列文章,针对《Direct Large Language Model Alignment Through Self-Rewarding
Contrastive Prompt Distillation》的翻译。
摘要
在没有人工注释偏好数据的情况下,使大型语言模型与人类期望相一致是一个重要问题。在本文中,我们提出了一种通过使用对比提示对下的响应对的输出概率来评估响应偏好的方法,与RLAIF相比,该方法可以在LLaMA2-7B和LLaMA2-13B上获得更好的性能。基于此,我们提出了一种自动对齐方法,即直接大模型对齐(DLMA)。首先,我们使用对比提示对来自动生成偏好数据。然后,我们继续使用对比提示对来评估生成的偏好数据,并计算自我奖励分数。最后,我们使用DPO算法通过结合这种自我奖励分数来有效地对齐LLM。在实验阶段,我们的DLMA方法可以在不依赖于人类注释偏好数据的情况下超越RLHF方法。
1 引言
2 相关工作
3 前言
4 提出的方法
5 实验
6 结论
在这项工作中,我们提出了一种新的方法D