[论文笔记] LIMA: Less Is More for Alignment

LIMA是65B参数的LLaMa模型,仅用1000个对齐数据进行微调,表现出与强化学习调优的GPT-4相当甚至更优的效果。研究发现,大型语言模型的大部分知识在预训练阶段习得,少量指令调优数据即可达到良好对齐。通过对3个社区问答网站和人工编写的高质量数据的分析,LIMA展示了强大的泛化能力和与用户意图的对齐效果。
摘要由CSDN通过智能技术生成

LIMA: Less Is More for Alignment (少即是多)

  —— 抛弃强化学习,指示学习微调LLaMa?

  —— 预训练足够强大,只需要少量数据引导出用户想要的风格的回复?

一、摘要

1.1 动机

大型语言模型分两个阶段进行训练:(1)从原始文本进行 无监督预训练,以学习通用表示;(2)大规模 指示学习 强化学习,以更好地与最终任务和用户偏好保持一致。

我们通过训练LIMA来衡量这两个阶段的相对重要性。

抛弃强化学习,指示学习微调LLaMa,是否能以少胜多,达到相同的效果?

1.2 做法

LIMA是一个65B参数的LLaMa语言模型,在 强化学习 或人类偏好建模的情况下,仅对 1000 promptsresponses 进行了标准有监督损失的微调。在损失上没有改进,不像PPO的损失设计一样复杂。

LIMA表现出了非常强大的性能,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值