多模态RLHF实现过程

应用场景是什么?
CoT + RLHF + LoRA +
众所周知,整个 RLHF (基于人类反馈的强化学习) 分为这么三步:

SFT (Supervised Fine-Tuning): 有监督的微调,使用正常的 instruction following 或者对话的样本,来训练模型的基础对话、听从 prompt 的能力;
RM (Reward Modeling): 基于人类的偏好和标注,来训练一个能模拟人偏好的打分模型;
RL (Reinforcement Learning): 在前面的 SFT 模型的基础上,借助 RM 提供反馈,来不断通过 PPO 的强化学习框架来调整模型的行为。

Codebase

trl(一款采用强化学习训练Transformer语言模型和稳定扩散模型的全栈库):监督微调步骤(SFT)到奖励建模步骤(RM)再到近端策略优化(PPO)步骤。该库建立在Hugging Face 的 transformers 库之上。因此,可以通过 transformers 直接加载预训练语言模型。具体介绍
[github](https://github.com/huggingface/trl]

基于 LoRA 的 RLHF

基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历
h
:
github
这个代码将LoRA和RLHF的训练过程相结合。从图中可以看出RL阶段的四个模型分别是:sft-model,ref-model,ppo-model, reward-model。
在这里插入图片描述
img

LLaVA-RLHF

通过使用图像-文本配对进行额外的预训练,或通过在专门的视觉指令调整数据集上进行微调,大型语言模型可以进入多模态领域,从而产生强大的大型多模态模型。然而,构建多模态模型存在一些障碍,其中最主要的是多模态数据和纯文本数据集之间的数量和质量差异。以LLaVA模型为例,它是从预训练的视觉编码器和针对指令进行调整的语言模型初始化的,比纯文本模型的训练实例要少得多,纯文本模型使用了超过1亿个实例涵盖了1800个任务。LLaVA仅仅是在15万个基于图像的人工对话中进行训练。由于这些数据的限制,由于这些数据限制,视觉和语言模式可能不一致。:https://www.atyun.com/57343.html
他们的一个重要贡献是将多模态对齐适应到被称为人类反馈强化学习的通用和可扩展对齐范式上,这种范式对于基于文本的人工智能代理已经证明了显著的有效性。为了对LMM进行微调,它收集人类偏好,重点是识别幻觉,并将这些偏好用于强化学习中。

https://llava-rlhf.github.io/
https://github.com/llava-rlhf/LLaVA-RLHF

其他相关链接

LLM的解码是如何进行的
多模态大模型综述

chatgpt的rlhf实现(有点复杂,没太看懂):https://blog.csdn.net/v_JULY_v/article/details/132939877
https://blog.csdn.net/Remixa/article/details/130576255

关于第三阶段的实现代码细节:没看明白 https://blog.csdn.net/Remixa/article/details/130666878

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值