大模型SFT的局限性

AIBigModel

已于 2024-08-31 11:12:38 修改

阅读量122

点赞数 1

文章标签：人工智能 llama

于 2024-08-31 11:07:56 首次发布

本文链接：https://blog.csdn.net/AIBigModel/article/details/141749753

版权

今天看到了一个问题“为什么要做 rlhf，sft 不够吗？” 很多大佬都分享了自己做 rlhf 的一些经验和心得。收获蛮多的同时，我留意到，大佬们都在说 rlhf 有多重要，怎么优化 rlhf，rlhf 能带来多大的提升，却并没有直面这个问题：为什么非做 rlhf 不可呢？或者说，用 reward_model 清洗和制造 sft 数据能不能取代 rlhf 呢？

下面我分享一些自己的看法，希望能和大家一起探讨。