Remixa-CSDN博客

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(3/3)：RLHF Finetuning

前言本篇为上中下三篇章的【下篇】，接续自【中篇】。主要针对整个DeepSpeed-Chat框架中最为复杂的第三阶段进行详解，其中涉及到部分InstructGPT所述相关原理的实践，基于其代码将更易于理解诸多原理中一笔带过的话题，如“用于经验采集的策略网络到底是SFT还是Actor”“Critic的迭代又是如何实现的”等等。尽管这是讨论DeepSpeed-Chat技术为主的文章，但还是不得不借用ColossalChat（另一个实现了RLHF Pipeline的开源项目，项目地址）绘制的流程示意图（

2023-05-17 17:46:40 4473 25

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3)：Supervised Finetuning、Reward Model Finetuning

本篇为上中下三篇章的【中篇】，接续自【上篇】。主要针对三阶段训练中第一阶段、第二阶段较为重要的部分源码进行详解。尽管官方的上手文档均是以sh文件为例进行演示，且源码中确实也提供了便捷的sh文件供直接使用，但我仍建议通过各阶段的main.py文件（）来运行训练，大致原因有二：其一是因为官方预设的sh文件调用了。

2023-05-17 17:45:38 4069 8

原创 InstructGPT高效实践——【DeepSpeed-Chat】源码详解(1/3)：基本概念、数据集管理

早些时候微软发布了遵从InstructGPT训练逻辑的训练框架DeepSpeed-Chat，旨在通过良好的DeepSpeed生态降低类ChatGPT模型昂贵的训练成本，为了能更直接地理解有关技术原理，我对其中实现训练相关的代码进行了详细剖析，考虑到目前还没有太多相关文章对此进行过深入介绍，因此我将在本博客中探讨这个框架的实现细节，以帮助有需要的人能更好地理解和使用它。另外，我也非常欢迎大家在评论区分享出自己对这个框架的看法以及使用经验，或是提出对本文的建议。框架源码地址。

2023-05-17 17:42:55 4542 10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人