[论文笔记] chatgpt系列 1.2 PPO(chatlama & colossalAI 代码解读)

心心喵

已于 2023-05-09 20:38:06 修改

阅读量680

点赞数

分类专栏：论文笔记文章标签：自然语言处理 chatgpt 人工智能

于 2023-04-25 20:16:03 首次发布

本文链接：https://blog.csdn.net/Trance95/article/details/130369218

版权

论文笔记专栏收录该内容

97 篇文章 5 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

ChatGPT 训练一共分为三个步骤：Pretrain/FT、Reward Model、PPO

GitHub - hpcaitech/ColossalAI: Making large AI models cheaper, faster and more accessible

nebullvm/apps/accelerate/chatllama at main · nebuly-ai/nebullvm · GitHub

一、 Actor模型训练（微调GPT）

这个步骤是对Actor模型即GPT进行有监督预训练/微调。

模型采用 GPT2LHHeadModel ，损失函数采用softmax交叉熵。

class SFTDataset(Dataset):
    def __init__(self, dataset, tokenizer: Callable, max_length: int=512) -> None:
        super().__init__()
        self.prompts = []

        for data in tqdm(dataset, disable=not is_rank_0()):
            prompt

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心心喵

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[论文笔记] chatgpt系列 1.2 PPO(chatlama & colossalAI 代码解读)

ChatGPT 训练一共分为三个步骤：SFT、Reward Model、PPO。
复制链接

扫一扫

专栏目录

订阅专栏

策略梯度算法PPO+代码解读

10-17

策略梯度算法PPO+代码解读策略梯度算法PPO（Proximal Policy Optimization）是OpenAI公司在2016年发布的一种近端策略优化算法，属于策略梯度算法的一种。PPO的成功应用于OpenAI Five项目，成功击败了世界冠军团队...

ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT

热门推荐

结构之法算法之道

01-15

18万+

本篇ChatGPT笔记会全力做到，通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式) 一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法，最后再到instructGPT、ChatGPT、SeqGAN 且本文之前，99%的文章都不会把PPO算法从头推到尾，本文会把PPO从零推到尾，按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步

参与评论您还未登录，请先登录后发表或查看评论

ChatGPT第二弹：PPO算法

zenRRan的博客

02-09

4827

作者：陈一帆出处：哈工大SCIR进NLP群—>加入NLP交流群1. ChatGPT与PPO算法在上篇文章中我们提到，ChatGPT的训练过程主要分为三步：微调GPT-3模型、人工对微调后模型的生成结果打分以训练得到一个奖励模型、基于微调后的GPT-3结合奖励模型采用强化学习的方法更新策略。而第三步中强化学习的方法为OpenAI于2017年提出的Proximal Policy Optimiz...

强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO

结构之法算法之道

02-10

4万+

强化学习里面的概念、公式，相比ML/DL特别多，初学者刚学RL时，很容易被接连不断的概念、公式给绕晕，而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去，如今都看得懂了，故如果读文本之前，你正在被RL各种公式困扰，相信看完这篇RL极简入门后就完全不一样了)。

ChatGPT强化学习大杀器——近端策略优化（PPO）

略懂……略懂……

03-06

9911

近端策略优化是当前最先进的强化学习 (RL) 算法。这种优雅的算法可以用于各种任务，并且已经在很多项目中得到了应用，最近火爆的ChatGPT就采用了该算法。本文重点讲解近端策略优化算法，并用PyTorch从头实现一遍。

【ChatGPT】ChatGPT 原理全解析——读完这10篇论文，你就懂了。

禅与计算机程序设计艺术

04-08

2万+

2022年11月，推出人工智能聊天原型ChatGPT，再次赚足眼球，为AI界引发了类似AIGC让艺术家失业的大讨论。ChatGPT 是一种专注于对话生成的。它能够根据用户的文本输入，产生相应的智能回答。这个回答可以是简短的词语，也可以是长篇大论。其中 GPT 是（生成型预训练变换模型）的缩写。下面列出了学习 ChatGPT 必看的 10 篇论文。

基于PPO的SDN流量调度代码

11-14

标题中的“基于PPO的SDN流量调度代码”揭示了我们即将探讨的核心主题：使用强化学习算法PPO（Proximal Policy Optimization）在软件定义网络（Software-Defined Networking, SDN）环境中进行流量调度。SDN是一种新型...

计算机视角解读ChatGPT投资机会.pdf

02-20

【计算机视角解读ChatGPT投资机会】 ChatGPT是由OpenAI公司开发的一种基于人工智能的预训练语言模型，自推出以来，因其在对话交互中的出色表现，迅速在全球范围内引起了广泛的关注。这一现象对于IT行业，尤其是投资...

计算机行业周报：计算机视角解读ChatGPT投资机会.pdf

06-05

【计算机视角解读ChatGPT投资机会】 ChatGPT是由OpenAI公司开发的一种基于人工智能的预训练语言模型，自推出以来迅速引发了全球关注。ChatGPT的出现不仅在技术上带来了自然语言处理（NLP）的重大突破，同时也为...

ChatGPT 使用强化学习：Proximal Policy Optimization算法（详细图解）

段智华的博客

04-10

1337

ChatGPT 使用强化学习：Proximal Policy Optimization算法强化学习中的PPO（Proximal Policy Optimization）算法是一种高效的策略优化方法，它对于许多任务来说具有很好的性能。PPO的核心思想是限制策略更新的幅度，以实现更稳定的训练过程。接下来，我将分步骤向您介绍PPO算法。

chatgpt中的强化学习 PPO

weixin_38949258的博客

04-06

3496

本该到此结束，但是上述实现的时候其实是把生成的每一步的奖励都使用统一的句子级reward，但该代码其实也额外按照每个token来计算奖励值的，为了获取每个token的奖励，我们在生成模型的隐层表示上，多加一个线性层，映射到一维，作为每个状态的预测奖励值。类似的，在文本生成中我们也可以用蒙特卡洛方法来估计一个模型的状态价值。假如我们只采样到了s1和s2，没有采样到s3，由于7和3都是正向奖励，s1和s2的训练后生成的概率都会变大，且s1的概率变的更大，这看似合理，但是s3是未参与训练的，它的概率反而减小了。

ChatGPT的强化学习部分介绍——PPO算法实战LunarLander-v2

消极的人永远是对的，积极的人选择勇往直前

05-08

1645

ChatGPT的强化学习部分介绍——PPO算法实战LunarLander-v2

ChatGPT原理简明笔记

weixin_43466027的博客

02-13

8729

chatGPT训练方法极简总结。

【生成式人工智能-九-大型语言模型的幻觉、偏见等安全性问题】

zishuijing_dd的博客

08-09

729

大型语言模型的幻觉、偏见等问题，简介解决方案

自然语言处理（NLP）--数据增强

最新发布

GDHBFTGGG的博客

08-12

528

自然语言处理（NLP）中的数据增强旨在通过对文本数据进行各种变换，生成更多样化的训练样本，从而提高模型的泛化能力。与计算机视觉中的数据增强不同，NLP中的数据增强需要在保证语义一致性的前提下对文本进行改造。这种技术在数据量不足或多样性欠缺的情况下尤为重要，特别是对于小样本问题和低资源语言。

AI学习系列：大语言模型学习原理

2401_85324918的博客

08-08

1046

今天文章主题：大语言模型的学习原理大语言模型的学习原理是通过深度学习算法，让计算机从大量文本数据中学习语言规律和知识，从而能够理解和生成自然语言。例如，就像婴儿通过不断听大人说话来学习语言一样，大语言模型通过阅读互联网上的海量文章、书籍和其他文本资料，学习理解并能够模仿人类的语言表达。深度学习算法是一种先进的机器学习技术，它借鉴了人脑神经网络的结构，并运用多个层级的节点（或称为“神经元”）来学习数据中的复杂模式。

【大模型从入门到精通15】openAI API 构建和评估大型语言模型（LLM）应用3

kaggle expert，全球排名前1000，清华计算机研究生，兴趣算法工程

08-09

433

函数中的逻辑需要根据实际情况进行调整，以便能够正确解析LLM的响应并提取分数和反馈。以上代码示例仅供参考，实际应用中需要根据具体情况调整和完善。函数对一个响应进行评估，以了解它与提供的上下文的匹配程度以及信息的准确性。

《Unified Visual Relationship Detection with Vision and Language Models》ICCV2023

qq_46981910的博客

08-09

1058

这项工作集中在训练单一的视觉关系检测器（VRD），该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致，合并标签是一个挑战。作者提出了 UniVRD，一种新颖的自下而上的方法，利用视觉和语言模型（VLMs）来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入，其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP，比当前最佳的自下而上的 HOI 检测器相对提高了 60%。

Python知识点：使用Transformers进行预训练语言模型应用

bigorsmallorlarge的专栏

08-07

828

使用Transformers库（Hugging Face提供）进行预训练语言模型的应用涉及几个步骤：安装库、加载预训练模型、进行文本生成或分类任务。以下是一个详细的示例流程。

"InstructGPT：反馈指令的PPO强化学习——ChatGPT内核

ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习 ChatGPT内核：InstructGPT，基于反馈指令的PPO强化学习是一项新颖且引人注目的技术，它的提出吸引了学术界的广泛关注。这项技术利用了ChatGPT这一聊天机器人...