LIMA: Less Is More for Alignment (少即是多)
—— 抛弃强化学习,指示学习微调LLaMa?
—— 预训练足够强大,只需要少量数据引导出用户想要的风格的回复?
一、摘要
1.1 动机
大型语言模型分两个阶段进行训练:(1)从原始文本进行 无监督预训练,以学习通用表示;(2)大规模 指示学习 和 强化学习,以更好地与最终任务和用户偏好保持一致。
我们通过训练LIMA来衡量这两个阶段的相对重要性。
抛弃强化学习,指示学习微调LLaMa,是否能以少胜多,达到相同的效果?
1.2 做法
LIMA是一个65B参数的LLaMa语言模型,在 无强化学习 或人类偏好建模的情况下,仅对 1000 个 prompts 和 responses 进行了标准有监督损失的微调。在损失上没有改进,不像PPO的损失设计一样复杂。
LIMA表现出了非常强大的性能,