ModaHub魔搭社区：ChatGLM-RLHF：无需微调教程

ModaHub魔搭社区

于 2023-07-08 10:00:00 发布

阅读量834

点赞数

分类专栏：《实战AI大模型》魔搭GPT 文章标签： AI模型魔搭社区 ModaHub ChatGLM

LCHub

本文链接：https://blog.csdn.net/qinglingye/article/details/131493385

版权

《实战AI大模型》同时被 2 个专栏收录

189 篇文章 11 订阅 ¥129.90 ¥299.90

订阅专栏

超级会员免费看

49 篇文章 3 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

该教程介绍了如何仅使用RLHF（Reinforcement Learning from Human Feedback）对ChatGLM模型进行参数调整，无需传统的finetune过程。RLHF的Critic使用ChatGLM的简化版，奖励模型通过比较目标输出的相似度。主要内容包括RLHF数据格式的定义和使用，ChatGLM的微调，以及如何设置主人和机器人昵称。训练大约5个epoch后，模型的泛化能力得以保持。

摘要由CSDN通过智能技术生成

目录

对ChatGLM直接使用RLHF进行调整参数，无需传统的finetune|Modify ChatGLM params with only RLHF。

大部分的RLHF代码都是在分布式框架，不适合学习和使用，本代码的RLHF代码不需要Megatron或者deepspeed框架，只需要传统的炼丹torch和显卡就好了，RLHF的Critic用的ChatGLM的缩小版本，而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可，其他的都是已经了解的模型和结构。非常有利于NLPer进军RLHF。
功能：

●RLHF数据格式的定义和使用√
●只用RLHF就对ChatGLM进行了微调√
●让ChatGLM认主√
○可以自定义
■主人的姓名
■Robot的昵称
●实现更精细化的情人设定×
●结合自己资料的检索和生成×

使用方法

安装环境仿照，ChatGLM-6B官方那个即可
1、修改自己想要的主人名字和昵称，执行

python data/generate_data.py

2、基于自己的

了解本专栏

超级会员免费看

ModaHub魔搭社区

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
ModaHub魔搭社区：ChatGLM-RLHF：无需微调教程

大部分的RLHF代码都是在分布式框架，不适合学习和使用，本代码的RLHF代码不需要Megatron或者deepspeed框架，只需要传统的炼丹torch和显卡就好了，RLHF的Critic用的ChatGLM的缩小版本，而Reward咱们直接使用一个和目标输出比较的相似度模型即可。这样只需要学习核心的PPO算法即可，其他的都是已经了解的模型和结构。●RLHF数据格式的定义和使用√。○咩咩是我的主人给我起的昵称。■咩咩是我的主人给我起的昵称。○咩咩是主人给我起的。●泛化能力保持的很好嘛。●咩咩是谁给你起的？
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ModaHub魔搭社区 共建低代码生态

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。