ModaHub魔搭社区:ChatGLM-RLHF:无需微调 教程

该教程介绍了如何仅使用RLHF(Reinforcement Learning from Human Feedback)对ChatGLM模型进行参数调整,无需传统的finetune过程。RLHF的Critic使用ChatGLM的简化版,奖励模型通过比较目标输出的相似度。主要内容包括RLHF数据格式的定义和使用,ChatGLM的微调,以及如何设置主人和机器人昵称。训练大约5个epoch后,模型的泛化能力得以保持。
摘要由CSDN通过智能技术生成

目录

使用方法

效果展示


对ChatGLM直接使用RLHF进行调整参数,无需传统的finetune|Modify ChatGLM params with only RLHF。


大部分的RLHF代码都是在分布式框架,不适合学习和使用,本代码的RLHF代码不需要Megatron或者deepspeed框架, 只需要传统的炼丹torch和显卡就好了,RLHF的Critic用的ChatGLM的缩小版本,而Reward咱们直接使用一个和目标输出比较的相似度模型即可。 这样只需要学习核心的PPO算法即可,其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF。
功能:


●RLHF数据格式的定义和使用√
●只用RLHF就对ChatGLM进行了微调√
●让ChatGLM认主√
○可以自定义
■主人的姓名
■Robot的昵称
●实现更精细化的情人设定×
●结合自己资料的检索和生成×


使用方法


安装环境仿照,ChatGLM-6B官方那个即可
1、修改自己想要的主人名字和昵称,执行

python data/generate_data.py

2、基于自己的

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ModaHub魔搭社区

共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值