基于人类反馈的强化学习（RLHF）入门指南

最新推荐文章于 2024-05-30 22:29:50 发布

lichunericli

最新推荐文章于 2024-05-30 22:29:50 发布

阅读量1.0k

点赞数 22

分类专栏： LLM 文章标签：人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/lichunericli/article/details/136565672

版权

理解 RLHF 及其运作过程

来自人类反馈的强化学习 (RLHF) 是一种训练和微调大型语言模型的方法，使其能够正确遵循人类指令。借助 RLHF，LLM 模型可以理解用户的意图，即使该意图没有被明确描述。RLHF 使模型能够正确解释指令并从以前的对话中学习。

为什么 RLHF 对 LLM 很重要

要更好地理解 RLHF，了解大型语言模型的基本特征至关重要。大型语言模型旨在预测句子的下一个单词。例如，您向 GPT 模型提供短语“狐狸从树上跳下来……”（The fox jumped off the tree...），它会用“然后稳稳地落在地上”（and landed on its feet）来完成句子。

但是，如果 LLM 能够理解简单的指令，例如“写一个关于狐狸和树的短篇故事”（Create a short story about a fox and a tree），则会更有帮助。作为初始语言模型，它难以解释此类指令的目的。因此，该模型可能会提供模棱两可的响应，例如描述编写创意故事的方法，而不是直接讲故事本身。

RLHF 使 LLM 能够扩展其能力，使其不仅仅能自动补全语句。它涉及创建一个奖励系统，通过人类反馈进行增强，以指导基础模型哪种响应更符合人类偏好。简而言之，RLHF 让 LLM 具备像人类一样的判断能力。