大模型免微调解锁对话能力,RLHF没必要了!一作上交大校友:节省大量成本和时间...

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

要搞大模型AI助手,像ChatGPT一样对齐微调已经是行业标准做法,通常分为SFT+RLHF两步走。

来自艾伦研究所的新研究却发现,这两步都不是必要的???

96369c62628eb0ae94865c5027a52284.png

新论文指出,预训练完成刚出炉的基础模型已经掌握了遵循指令的能力只需要提示工程就能引导出来,引起开发社区强烈关注。

因为RLHF的成本非常高训练还不稳定,这样可就省了大钱了。

46057f7fd9092af6e822ab1c941eb21e.png

研究据此提出一种新的免微调对齐法URIAL

论文中把新方法形容为“解锁基础模型潜力的咒语”,能够节省大量算力资源和时间。

更值得关注的是,不掌握稳定RLHF(人类强化学习)能力的小型团队,也能低成本开发出可以聊天对话、遵循指令的对齐模型了。

8ee9740ac72f323dc4879a097c2c5f42.png

目前URIAL代码和新评估基准Just-Eval-Instruct已开源,刚刚上传不久。

1c5d07554168026b507e3780cb5970d2.png

研究来自艾伦研究所和华盛顿大学Yejin Choi团队,过去曾提出Top_p采样,在如今大模型API调用中是常用参数。

b75d2cc40cb987e711a7f1138f8488d9.png

一作研究员林禹辰是上交大校友。

0b21a230a4ee338396d42b8f37a56f14.png

打破SFT+RLHF神话

最早让人们开始质疑对齐微调的,是一项Meta等在5月份一项研究LIMA

LIMA指出只需要1000个样本做SFT(监督微调),就可以匹配ChatGPT的性能。

c90a1ac8b429454272994bfba1118c81.png

论文中LIMA团队还探讨了“表面对齐假设”Superficial Alignment Hypothesis):

模型的知识和能力几乎都是在预训练阶段学到的,对齐则是教会模型在与用户互动时应使用哪些特定格式的子集。

换句话说,对齐阶段只是调整模型的语言风格,没有增强模型的能力。

从表面对齐假设出发,URIAL团队做了充分的实验,对比基础模型和对齐模型之间的token分布偏移(TDS,token distribution shifts)。

cdcbd3bf194a0197f2ae445e24e12e22.png

实验选用3组基础模型与对齐模型做对比,结果表明:

822998f72c2c4f5c02c9a68e92d42f7d.png

  • 对齐仅影响一小部分token。基础模型和对齐模型在大多数位置的解码中表现相同,共享排名靠前的一组token。

  • 对齐主要涉及文风相关的token,如话语标志(discourse markers,“首先、其次、总之、然而……”这些)、过渡词和安全免责声明,只占5-8%。‍

  • 对齐对较早出现的token更重要(生成内容的开头),在后续位置对齐模型排名最高的token,基本位于基本模型排top-5的token之内。

  • 基础模型已经获得了足够的知识来遵循指令,给定合适的上下文作为前缀时,它们的行为与对齐模型非常相似。

ac11ef9376c136d7bec69d768112332d.png

接下来的问题就是,不用SFT和RLHF的情况下,如何把一个基础模型变成能多轮对话、遵循指令的AI助手?

免微调对齐法URIAL

团队的免微调对齐法URIAL(Untuned LLMs with Restyled In-context ALignment),纯粹利用基础模型的上下文学习能力实现有效对齐,只需三个风格示例和一个系统提示。

6a41f9c0f7d70c9d806ac66d947e882a.png

在实验中,团队使用URIAL方法对齐7B、70B的Llama2以及Mistral-7B大模型。

8825ed2dcc0b16ae57b5c70c1d3669ca.png

结果表明当基础模型很强时,URIAL的表现甚至优于SFT和RLHF

8fab769926e030bc2678abfdb088b7c9.png

团队认为URIAL方法的主要贡献有:

  • 实施起来非常简单,并且可完美重现,从而有助于未来新的免微调和微调对齐方法的开发和评估。

  • 可轻松对齐大尺寸模型(如Llama2-70b甚至Falcon-180b),节省大量算力和时间。

  • 可用于在预训练过程中频繁评估基础模型,监控基础模型的质量。

  • 可用于公平比较不同基础模型之间的对齐潜力。过去不同模型的微调过程可能差异很大(例如数据、训练方法、超参数等),不能直接反映基础模型的质量。

  • 还可用于探索大模型对齐的科学,例如分析基础模型在预训练期间已经获得的知识和技能,识别缺失的内容,而不是盲目地利用大量数据进行微调,从而产生不必要的计算成本。

66bdf3a97ee4f86481b82ea84ac9921a.png

实验也探索了URIAL中示例的不同数量,如果提高到8个,一些指标中有明显提升,但一些指标中也有下降,最终作者推荐用3个比较平衡

9675da91313e02c1319dee3c2faece43.png

对于改用不同的示例也比较稳健

5be6166742ebe2606d417c9d23b51156.png

如果把之前对话作为示例的一部分,URIAL也可以让基础模型获得多轮对话的能力

46d944ad385bb923083ed46938a5a977.png

One More Thing

论文中实验的Llama-2和Mistral,其实总体来说都属于羊驼家族。

URIAL免微调对齐法是否用于羊驼架构之外的大模型?

由于不是羊驼的开源大模型不好找,我们试了试刚刚发布的Transformer挑战者,Mamba架构基础模型

Mamba是一种状态空间模型,别说不是羊驼了,连Transformer都不是。

使用论文附录提供的一份URIAL标准提示词,简单测试发现同样适用。

ad341f655e9795c97b78790d46779e5f.png

使用URIAL询问“你能用6岁小朋友也能听懂的方式解释什么是状态空间模型吗?”

Mamba将数学定义的状态比喻成了车在路上的位置,比较简单易懂,甚至给出markdown格式的图片链接,试图图文并茂回答问题。

9ac099222d132929596977455eac30d9.png

如果不使用URIAL直接输入这个问题,Mamba的表现就是基础模型那样补全下文而不是回答问题了,解释的内容也是车轱辘话来回说。

7162dc9c6d7812821ee30f83bf5e7abd.png

论文:
https://allenai.github.io/re-align/

参考链接:
[1]https://twitter.com/IntuitMachine/status/1732089266883141856
[2]https://arxiv.org/abs/2305.11206

—  —

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值