大模型SFT的局限性

1fceaa3bfeab8bcdfcd644de09b6f65f.jpeg

作者 | ybq 

https://zhuanlan.zhihu.com/p/717275921

今天看到了一个问题“为什么要做 rlhf,sft 不够吗?” 很多大佬都分享了自己做 rlhf 的一些经验和心得。收获蛮多的同时,我留意到,大佬们都在说 rlhf 有多重要,怎么优化 rlhf,rlhf 能带来多大的提升,却并没有直面这个问题:为什么非做 rlhf 不可呢?或者说,用 reward_model 清洗和制造 sft 数据能不能取代 rlhf 呢?

下面我分享一些自己的看法,希望能和大家一起探讨。


sft 无法提供负反馈

sft 的训练过程,是一个让模型学习条件概率的过程,Prob( E | ABCD )。这也就是说,模型在训练和学习过程中,只知道 next_token 出什么是正确的,而不知道 next_token 出什么是错误的。无论你的 sft 语料如何构造,都无济于事,模型不知道“什么 token 是不能生成的”。

这也间接解释了另外一个现象:为什么 sft 的数据多样性很重要。因为没办法, 我们无法直接让模型知道错误的 token 是什么,但只要我们把正确的 token 都喂给它学习,孤立那个错误的 token,似乎也能起到类似的效果。可以这么认为,sft 一直在通过“孤立”来降低错误 token 的出现概率

(非常像我研究生时期的一件趣事,导师觉着我们中有人向他汇报敷衍,就说:“给大家留点面子,我就不点名批评不认真汇报的同学了,我表扬一下认真汇报的同学,张三、李四、王五……”)

sft 缺乏负反馈机制引发的糟糕后果,还远不止此。

举个例子,上学的时候,我们最怕老师教我们什么?最怕老师教我们,“这道题,有些同学容易犯这些错误”,“这句古诗,老有同学把这个字写成那个字”等等。明明我从来不会写错这道题,但老师非要教我,那好,我也成功的记住了错误的答案。

模型亦是如此,你越是在 sft 阶段告诉它什么是错误的,它越是容易提高错误 token 的概率。站在模型的角度来思考,这个现象非常合理:“训练者不断让我提高 Prob( E | ABCD ) 的概率,那我举一反三,顺带提高一下 Prob( E | ACD ) 的概率是不是也合理?训练者是不是应该表扬我?”

可问题是,好巧不巧,B 这个 token,恰好是“not”,恰好是“不”。

我做了一个实验去印证我举的例子,在 qwen2-0.5B 模型上,我用预训练阶段没见过的 special_token,给模型在 sft 阶段注入了一些知识。

  • 训练语料:<reserved_1>最喜欢的人是<reserved_2>

  • 预测语料:<reserved_1>最讨厌的人是

qwen2-0.5B 这个模型不辱使命,成功的帮我续写出了 <reserved_2>。模型固然知道“喜欢”和“讨厌”是完全相反的两个语义,但是奈何 <reserved_2> 这个 token 和 <reserved_1> 这个 token 太熟悉了。

所以,某种意义上,transformer 结构的模型真的很“笨”。当我们被问及谁是生命中重要的人的时候?我们脑海大概率会同时出现喜欢的人和厌恶的人,但我们明确知道,我想起来厌恶的人是因为我一定不能回答这个名字,他在我 next_token_prediction 的时候是个负概率。但模型不知道啊,它只知道这些 token 的 prob 很大,我要选它们作为自己的 next_token,而不会考虑之所以这个 token 概率大,恰恰是因为训练者不希望续写出这个 token。

这里问一个我曾经被问过的问题,“一句绝对正确的话,是不是可以放进 sft 训练语料中?”

我的观点是:不应该,因为一句绝对正确的话,它可能有局部是不正确的,这些局部错误的知识内容也会在 sft 的过程中被模型学到。(这个问题属于开放问题,欢迎大家提出更多看法和见解,个人观点未必正确)

说回正题,sft 没有负反馈,但 rlhf 有啊。reward_model 就像是一个教官,你敢续写出某个不能出的 token,我就抽你,抽到你不敢出这个 token 为止。(当然,续写出了好 token,教官也会给瓶冰可乐)。这可能也是为什么 rlhf 的最大应用方向是安全场景吧,毕竟 sft 真的做不好安全。

sft 不具有“向后看”的能力

sft 的另一个不足,就是它放大了 transformer 单向注意力结构的缺陷。

在 sft 的训练过程中,每一个 token 都只看得见前面的 token。还是那个经典例子,“台湾不是中国的,这个观点是严重错误的”。无论你用什么炼丹技巧来做 sft,Prob(中国 | 台湾不是) 的概率都是在增加的,模型无法利用“后半个句子在否定前半句子”这个重要信息。

那 rlhf 是怎么学习这句话呢?首先这句话是正确的,他会得到一个正向的 reward_model,但这句话中的每个 token 又不是同等正确的。如果对 critic_model 进行可视化,它大概率会在 reward 反向衰减传递的时候,把最大的奖励赏赐给“错误 ”这个 token,而“中国 ”这个 token 可能并不会得到很多的 reward。

所以,sft 在更新某个 token 的概率的时候,是只参考前面信息的,是一种局部的有偏的训练方法。但 rlhf 或者 dpo 并不是这样,每一个 token 在更新概率的时候,都是观察到了整个 sentence 的,因而理论上,rlhf 的训练方法能带来更高的训练上限。

换一个角度来说,sft 的 loss 是平均 loss, rlhf 的 loss 是加权 loss。至于怎么加权,去问 reward_model 和 critic_model。


综上所述,我个人认为,除非 sft 的训练方式发生改变(比如每个 token 的 loss,不再是算术平均),否则 rlhf 还是一个不可取代的环节。并不是 sft 不能和 reward_model 进行配合,而是 sft 本身的局限性实在太大了。当下,OpenAI 告诉我们 rlhf 是一种弥补 sft 局限性的方法,而 Google 会不会在未来会提出更好的方案也说不定。

我本人并没有深入做过 rlhf,如果有些分析或理解说错了,还望大佬纠正。

2167f6563e0bcccefbf071aa4ec8e1af.gif

### 关于 Deepseek 大型模型的关键特性 #### 思维链模型及其影响 Deepseek 被设计成一种具备强对齐特性的思维链模型。这一架构允许它能够处理解释复杂逻辑链条中的信息,从而更好地理解上下文环境以及解决多步推理问题[^1]。 #### 数据集与训练方法 针对非推理性数据(例如创意写作、角色扮演及简单问答),采用的是 DeepSeek-V2.5 版本来生成回复,并通过人工标注员验证这些响应的准确性与正确性。此过程涉及到了监督微调设置(SFT),以确保最终输出的质量达到预期标准[^4]。 #### 初始强化学习阶段优化策略 为了避免在早期强化学习过程中可能出现不稳定的情况,在开发 DeepSeek-R1 时采取了一个特别措施——即创建并收集了一些较长的 CoT (Chain-of-Thought) 数据用于初步调整模型参数,以此作为初始 RL 执行者的起点[^3]。 #### 应用场景局限性分析 尽管拥有强大的能力去解析文档内的冲突陈述,由于其高度依赖内部训练资料库所形成的“世界事实”,当涉及到个人专属领域或是那些未能充分反映在其训练素材里的主题时,该类大型语言模型可能会表现出一定的困难程度。 ```python # 示例代码展示如何加载预训练好的 Deepseek 模型进行文本生成任务 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepseek-model" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) input_text = "Once upon a time," inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_length=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值