[论文笔记] chatgpt系列 2.4 DeepSpeed-chat Reward模型训练

心心喵

已于 2023-08-01 15:38:21 修改

阅读量387

点赞数

分类专栏：论文笔记文章标签：自然语言处理 chatgpt 人工智能

于 2023-04-28 22:50:24 首次发布

本文链接：https://blog.csdn.net/Trance95/article/details/130427226

版权

论文笔记专栏收录该内容

84 篇文章 4 订阅 ¥299.90 ¥99.00

订阅专栏

超级会员免费看

DeepSpeedExamples/applications/DeepSpeed-Chat at master · microsoft/DeepSpeedExamples · GitHub

第一步，SFT省略。

第二步，Reward Model训练。其中遇到安装deepspeed的时候报错，参考如下博客：

[linux] No such file or directory ‘:/usr/local/cuda/bin/nvcc‘_心心喵的博客-CSDN博客

2、Reward Model

pip install transformers --use-feature=2020-resolver
pip install datasets
pip install -r requirements.txt

# Move into the second step of the pipeline
cd training/step2_reward_model_finetuning

# Run the training script
bash training_scripts/s

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心心喵

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
[论文笔记] chatgpt系列 2.4 DeepSpeed-chat Reward模型训练

【代码】[论文笔记] chatgpt DeepSpeed-chat 训练。
复制链接

扫一扫

专栏目录

订阅专栏

[论文笔记] chatgpt系列 2.1 DeepSpeed-chat 简介

心宝的博客

04-28

2386

本着使chatgpt风格的模型及其功能民主化的精神，DeepSpeed很自豪地推出了一个通用的系统框架，为类似chatgpt的模型提供端到端的培训体验，名为DeepSpeed Chat。它可以自动采用您最喜欢的预训练大型语言模型，通过OpenAI InstructGPT风格的三个阶段来生成您自己的高质量chatgpt风格模型。DeepSpeed Chat使高质量chatgpt风格模型的培训变得简单，快速，经济实惠和可扩展。只需点击一下，您就可以在1.36小时。

DeepSpeed-Chat：Reward Model【奖励模型】

u013250861的博客

12-30

1080

定义reward模型：选择OPT-350M模型作为backbone，并定义一个linear层用于分类。- OPT模型中，需要定义--，OPT默认首个字符为PAD token;- 对于每个chosen或，取第一个padding token的前一个token的得分作为当前chosen或rejected input的得分1,else:"""假设默认设置的batch_size为N，那么len(input_ids)=2*N。

1 条评论您还未登录，请先登录后发表或查看评论

奖励模型Reward Model如何训练？

不可能打工的博客

06-14

1276

image.png 如上图所示，ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少(尽管模型最终要预测的就是每句话的得分)，而是让人去对 4 句话按照好坏程度进行「排序」。通过这个「排序序列」，模型将会学习如何为每一个句子进行打分，用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。 Rank Loss 假定现在有一个排好的序列：A > B > C...

想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）

Paper weekly

02-15

3510

©作者 |潘柯宇研究方向 |内容理解、信息抽取随着最近 ChatGPT 的大火，越来越多人开始关注其中用到的 RLHF（Reinforcement Learning from Human Feedback）这一核心思想。使用强化学习（而非监督学习）的方式更新语言模型，最大的优势是在于能够使得「模型更加自由的探索更新方向，从而突破监督学习的性能天花板」。关于为什么使用 RL 技术能够达到更好...

RM奖励模型

AI生成式技术曾小健

06-16

2249

本篇将介绍InstructGPT的RM过程，也就是reward model的训练，废话不多说，直接上干货。

抱抱脸：ChatGPT背后的算法-RLHF - 附12篇RLHF必刷论文

10-11

刻画模型输出与人类偏好的相近程度，但这也仅仅是在评价的层面，模型在训练的时候是见不到这些人类真实的偏好的。因此，训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算 reward或loss...

HelpSteer2: Open-source dataset for training reward models

06-29

HelpSteer2 is an open-source Helpfulness Dataset (CC-BY-4.0) that supports aligning models to become more helpful, factually correct and coherent, while being adjustable in terms of the complexity and...

Alpha掘金系列之五：如何利用ChatGPT挖掘高频选股因子？.pdf

04-05

然后对模型的不同输出结果进行排序，使其更符合人类预期，并利用排序结果训练一个打分模型 (Reward Model)。最终采样新的指令作为输入数据，根据打分模型进一步优化模型的输出结果。结合打分模型训练，得到最终的 ...

ChatGPT原理是什么？技术小白能看懂的ChatGPT原理介绍 - 画宇宙.pdf

06-05

ChatGPT 通过 GPT大模型训练、有监督训练初始模型、训练 Reward 模型、强化学习优化模型等步骤实现其强大的对话功能。 ChatGPT 的原理并不难理解，本文将以最通俗易懂的方式为技术小白解读，帮助大家更好地了解这...

hive-reward-manager:轻松申领和管理您的蜂巢奖励

05-08

Steem奖励经理或SRM的简称 Srm是一种自动赎回您的Steem奖励的工具，如果其中包含sbd，请前往内部市场以当前市场价格购买Steem奖励。它将每分钟检查是否有待处理的奖励。要使用它，请更新文件“ config.example.js...

论文阅读：DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation

qcmhzly的博客

08-31

1165

此外，如果将专家并行性设置为模型中专家数量最少，那么对于专家数量较多的MoE层，每个GPU需要多个专家，由于每个专家的批处理大小减少，导致效率低下，并且每个GPU所需的内存增加。请注意，每个GPU现在可以在每个MoE层训练1个专家，而不管其中的专家数量如何，这不会减少每个专家的输入令牌，也不会导致负载不平衡，也不会增加每个GPU的内存需求。从密集的 MoE 模型到稀疏的 MoE 模型的转变可以在大型模型领域开辟一条通往新方向的道路，在这个领域，用更少的资源部署更高质量的模型变得更加可能。

InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3)：Supervised Finetuning、Reward Model Finetuning

Remixa的博客

05-17

3601

本篇为上中下三篇章的【中篇】，接续自【上篇】。主要针对三阶段训练中第一阶段、第二阶段较为重要的部分源码进行详解。尽管官方的上手文档均是以sh文件为例进行演示，且源码中确实也提供了便捷的sh文件供直接使用，但我仍建议通过各阶段的main.py文件（）来运行训练，大致原因有二：其一是因为官方预设的sh文件调用了。

数据收集与处理：打造高质量的RewardModeling训练集

禅与计算机程序设计艺术

03-03

1. 背景介绍 1.1 人工智能的发展随着人工智能技术的飞速发展，越来越多的任务可以通过机器学习算法来完成。在这个过程中，训练数据的质量对于模型的性能至关重要。本文将重点讨论如何收集和处理数据，以打造高质量的RewardModeling训练集。

[LLM]大模型训练DeepSpeed(一)-原理介绍

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交