强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
强化学习(RL)算法 中的一种基于 Actor-Critic 框架 的结构 PPO
或类似的强化学习算法。训练 Actor 和 Critic 网络。衡量某状态的“价值”。学习准确的状态值函数。原创 2024-12-30 11:40:56 · 1036 阅读 · 0 评论 -
PPO & GRPO 可视化介绍
以下文章来源于是海潮音 ,作者是海潮音本文来自Google DeepMind研究员Jimmy关于PPO & GRPO 可视化介绍。原创 2025-02-17 11:05:57 · 955 阅读 · 0 评论 -
大模型中的 Reward Model:ORM、PRM、PPO、DPO
PPO 和 DPO 的最大区别是 PPO 是强化学习的两阶段范式,先生成,再判别,再根据判别结果优化,但 DPO 其实是离线生产了一批正样本数据集,还是监督学习范式,所以 PPO 又被称为 On-policy,而。显然,PRM 的上限更高(ORM 甚至可能存在结果正确但过程不正确的情况),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。可以在大模型输出的多个结果中选择更好的一个,更重要的是,判别结果可以某种损失的形式回传,优化大模型。原创 2025-02-21 05:31:14 · 336 阅读 · 0 评论 -
一些关于 RL for LLM 的思考
反之,最近出来的 LLM reasoning 新工作的 objective 的主要部分都是比答案,奖励在时间和值域上都很稀疏,但都 work 的挺好。从 RL 的角度看,RL for LLM 的 environment 是比较特殊的:首先它是 deterministic 的,其次其本身有准确的 model(虽然使用的算法都是 model-free 的)的,且原本的 reward 几乎都是 sequence-level(或者叫做 trajectory-level)而不是 token-level 的。原创 2025-02-20 09:35:39 · 155 阅读 · 0 评论 -
看DeepSeek R1的论文时,我突然想起了AlphaGo
读完论文,其实我唯一的疑惑就是,不在600B这么大规格的模型上,而是在100B甚至更小的模型上,能否走通这个路线。不过不管怎么说,R1这篇论文都是对我的极大鼓舞,起码后面多了一个比较明确的尝试方向。原创 2025-02-21 05:27:02 · 293 阅读 · 0 评论 -
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
在应用 GRPO 之前,该模型在保留测试集上达到了约 19% 的准确率,而在经过一个训练周期后,模型的准确率飙升至约 40.5%。然后,像 AdamW 这样的优化器需要更多的空间,因为它们就像一个记录员,跟踪最近的更新历史,以便更好地决定未来的优化。GRPO 的最小代码量大约只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 这样的小型模型和像 openai/GSM8K 这样的数据集,可以非常快速地启动。上下文或生成的 token 越多,需要的内存就越大。原创 2025-02-21 05:23:02 · 352 阅读 · 0 评论 -
RMB: 这是一个Reward Model Benchmark
奖励模型引导大规模语言模型的对齐过程,使其朝着人类偏好的行为方向发展。评估奖励模型是更好对齐 LLMs 的关键。然而,由于评估数据往往分布有限,以及当前评估奖励模型的方法与对齐目标之间并不对应,当前对奖励模型的评估可能无法直接反映其对齐性能。为了解决上述局限性,我们提出了RMB 涵盖超过 49 个现实世界场景,并包括成对比较和 Best-of-N(BoN)两种评估模式,以更好地反映奖励模型在引导对齐优化中的有效性。我们通过大量实验展示了我们的基准测试与下游对齐任务表现之间的正相关性。原创 2024-10-26 17:53:20 · 100 阅读 · 0 评论 -
斯坦福提出优于RLHF的对齐方法DPO
DPO 方法的相对对数比率 Log ( 好/不好),结合了一个动态的,针对每个样本的重要性权重,可防止朴素概率比率(naïve probability ratio ) 可能导致的模型褪化。也就是 DPO 其实是学到了人类偏好的范畴采样策略和变分推断方式,如何给定初始分布,如何变分推断等,所以少量偏好数据集,理想情况下却可以很好地泛化到其他任务。这个损失函数,是负对数似然损失:信息熵增,偏向无序,有序结构化降低,信息量减少,信息损失。损失函数的梯度,可以直观看到,其增加了"好的生成结果。客观题易,主观题难。原创 2024-02-07 12:45:00 · 1260 阅读 · 0 评论 -
ACL’24 RLMEC:基于生成式奖励模型的细粒度RLHF算法
上海以下文章来源于RUC AI Box ,作者陈志朋© 作者|陈志朋机构|中国人民大学研究方向|自然语言处理、大语言模型强化学习已被广泛应用于大语言模型的训练过程中,旨在减少大语言模型产生预期外的回复。然而,现有的强化学习方法主要采用实例级别的奖励作为监督信号,在复杂推理任务中(如数学推理)无法引导模型关注到推理过程中细粒度的错误,从而影响强化学习在提升大语言模型推理能力方面的效果。为了解决强化学习无法提供细粒度监督信号的问题,我们提出了一种新的强化学习算法RLMEC。原创 2024-05-23 11:33:57 · 1138 阅读 · 0 评论 -
RLHF 技术分解
一个语言模型 (LM聚合问答数据奖励模型 (Reward Model。原创 2024-02-15 16:50:20 · 1023 阅读 · 0 评论 -
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed-Chat 允许用户使用我们灵活的 API(如下所示)构建自己的 RLHF 训练流程,用户可以使用这些 API 重建自己的 RLHF 训练策略。我们希望这些功能可以为研究探索中创建各种 RLHF 算法提供通用接口和后端。args=args)为了实现无缝的训练体验,我们遵循 InstructGPT 论文的方法,并在 DeepSpeed-Chat 中整合了一个端到端的训练流程,如图 1 所示。转存失败重新上传取消。原创 2023-07-25 20:02:27 · 130 阅读 · 0 评论 -
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮。这场风潮对数字世界产生了革命性影响。ChatGPT类模型具有惊人的泛用性,能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了使ChatGPT等模型的训练和部署更轻松,AI 开源社区进行了各种尝试(例如、Vicuna、等)。然而,尽管开源社区付出了巨大的努力,目前仍缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类ChatGPT模型十分困难。例如,使用现有的开源系统训练一个具有。原创 2023-06-15 10:31:24 · 74 阅读 · 0 评论 -
从 ColossalChat 到 DeepSpeedChat, RLHF的应用及优化
收录于合集#LLMs8个作者:紫气东来项目地址:https://zhuanlan.zhihu.com/p/621391363。原创 2023-06-14 15:43:13 · 717 阅读 · 0 评论 -
LIMA: RLHF 不如 1000 条高质量数据?
使用了 residual dropout,最下面层使用 dropout rate = 0,往上面线性增加,最上面层使用 dropout rate = 0.3,如果模型更小,可以到 0.2 就好了。质量:使用没有 filter 过的 StackExchange 训练的模型,生成结果远远不如 filter 过的数据训练的结果。,而达到同样的效果,只需要 1000 条高质量的数据来 finetune 就足够了。下面图中是每个来源数据的示例,蓝色是 prompt,省略号是省略掉的文本。原创 2023-07-29 23:13:30 · 207 阅读 · 0 评论 -
ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗
近段时间,ChatGPT 横空出世并获得巨大成功,使得等这些晦涩的缩写开始出现在普罗大众的讨论中。这些晦涩的首字母缩略词究竟是什么意思?为什么它们如此重要?我们调查了相关的所有重要论文,以对这些工作进行分类,总结迄今为止的工作,并对后续工作进行展望。我们先来看看基于语言模型的会话代理的全景。ChatGPT 并非首创,事实上很多组织在 OpenAI 之前就发布了自己的语言模型对话代理 (dialog agents),包括Google 的 LaMDA 9,以及。原创 2023-06-14 07:21:05 · 2615 阅读 · 0 评论 -
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
基于核心洞察:修正未对齐的回答要比生成对齐的回答容易。作为一种高效的对齐方法,Aligner 具备以下优秀特性:作为一个自回归 Seq2Seq 模型,Aligner 在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上训练,学习对齐与未对齐答案之间的差异,从而实现了更精准的模型对齐。例如,在对齐 70B LLM 时,Aligner-7B 大规模降低了训练参数量,相较于 DPO 小 16.67 倍,比 RLHF 小 30.7 倍。原创 2024-02-08 05:31:58 · 787 阅读 · 0 评论 -
一键式 RLHF 训练 DeepSpeed Chat(二):实践篇
本文使用单机多卡基于OPT模型给大家分享了使用DeepSpeed Chat进行RLHF训练,希望能够给大家带来收获。参考文档DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍第一阶段: 有监督的微调 (SFT)第二阶段: 奖励模型微调第三阶段: 人工反馈强化学习 (RLHF)DeepSpeed Chat 训练详细说明。原创 2023-06-15 08:25:07 · 1669 阅读 · 0 评论 -
使用医患对话数据训练新冠诊疗模型的例子 ChatGLM Sft RLHF
本案例目的仅在于介绍利用项目框架进行 SFT+RLHF 的模型微调流程,微调结果不用于任何商业目的,且不保证模型的可靠性。原创 2023-07-01 16:02:20 · 1659 阅读 · 8 评论 -
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。原创 2024-02-07 13:30:03 · 860 阅读 · 0 评论 -
超越DPO之Step-DPO
皓天2024年07月09日 10:12上海作者:皓天来源:https://zhuanlan.zhihu.com/p/706106906近期,gsm8k、MATH被各种7B小模型刷的飞起,其中成为刷分利器。这里,instance-level-dpo指preference-dataset使用 完整的chosen-tracjectory和而step-level-dpo则使用step-chosen、step-rejected构造偏序数据集。原创 2024-07-09 12:20:13 · 1093 阅读 · 0 评论 -
DPO和orpo算法的区别和优劣
DPO (Direct Preference Optimization)和ORPO (Odds Ratio Preference Optimization)是两种用于大型语言模型(LLM)对齐的算法。总的来说,ORPO作为一种新方法展现出了promising的结果,特别是在计算效率和大型模型的性能方面。然而,DPO仍然是一种成熟且广泛使用的方法。选择使用哪种算法可能需要根据具体的应用场景、模型大小和可用资源来决定。原创 2024-07-09 14:03:44 · 1129 阅读 · 0 评论 -
请详述ppo和dpo的区别和优劣|详解ppo原理|
PPO 是一种高效且稳定的策略优化算法,通过引入裁剪机制限制策略更新幅度,从而在保证策略更新稳定性的同时,有效地进行策略优化。其简单易实现的特点使其成为强化学习中的一种常用算法,并在多种应用场景中表现出色。PPO 的成功表明,在强化学习中,稳定和高效的策略更新是实现高性能的重要因素。策略梯度目标函数 𝐽(𝜃)J(θ) 表示策略 𝜋𝜃πθ 下的期望累积回报。通过最大化这个目标函数,我们可以优化策略,使其在环境中获得更高的累积奖励。策略梯度方法直接优化策略的参数,通过计算目标函数的梯度。原创 2024-07-10 16:45:00 · 5984 阅读 · 0 评论 -
什么是DPO训练
这个损失函数的目的是通过最小化损失 𝐿DPOLDPO 来优化目标策略 𝜋𝜃πθ,使其在给定输入 𝑥x 的情况下,更倾向于产生较好的输出 𝑦𝑤yw,而不是较差的输出 𝑦𝑙yl。通过这种方式,可以逐步提高目标策略的质量。标签:大模型和强化学习总的来说,标量系数 𝛽β 提供了一种灵活的机制,可以根据具体需求调整损失函数的特性,从而更好地控制策略优化过程。这种调整不仅有助于提高模型的性能,还能在一定程度上保证训练过程的稳定性。GPT-4oPoe。原创 2024-06-28 14:13:17 · 2824 阅读 · 0 评论 -
Nous-Hermes-2-Mixtral-8x7B-DPO Nous爱马仕 2 - Mixtral 8x7B - DPO
我们爱马仕 2 - Mixtral 8x7B - DPO模型描述训练的全新旗舰 Nous Research 模型。该模型主要在超过 1,000,000 个由 GPT-4 生成的数据以及来自整个 AI 领域的开放数据集的其他高质量数据上进行了训练,并在各种任务上实现了最先进的性能。目录示例输出编写数据可视化代码创作赛博朋克迷幻诗执行反向翻译以根据输入文本创建提示基准测试结果与基础 Mixtral 型号相比,Mixtral 8x7B 上的。原创 2024-06-28 13:45:20 · 831 阅读 · 0 评论 -
DPO作者新作|From r to Q*
(这是进阶内容,不太关心理论的同学可跳过,主要解释原文常提及的bellman consistency啥意思,需要简单RL基础)首先我们把LLM建模成为一个MDP决策问题,每产生一个token是一步action,当下的state则是已经产生的所有token(前一半句子),产生T个token序列终止。这个episode中reward是稀疏的,只在最后一步得到:我们在这个MDP环境中用强行定义 函数和 函数。原创 2024-05-26 17:24:13 · 1049 阅读 · 0 评论 -
[强化学习]之马尔可夫决策过程,以及马尔可夫性
详细说马尔可夫决策过程,以及马尔可夫性GPT-4oPoe马尔可夫决策过程 (Markov Decision Process, MDP)马尔可夫决策过程 (MDP) 是一种数学框架,用于描述在不确定环境下进行决策的问题。它在许多领域有广泛应用,如机器人控制、经济学、运营研究和人工智能。MDP 的基本组成部分MDP 由以下四个基本元素组成:状态 (State, S):系统所处的所有可能状态的集合。每个状态s∈S 代表系统在某一时刻的具体情况。原创 2024-05-22 00:13:16 · 935 阅读 · 0 评论 -
图解大模型RLHF系列:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-05-21 23:18:48 · 921 阅读 · 0 评论 -
[强化学习面试之]经验重放
其中,\( R_{t+1} \) 是在时间 \( t+1 \) 获得的奖励,\( \gamma \) 是折扣因子,\( s_{t+1} \) 是新状态,而 \( a' \) 是新状态下可能的动作。这里,\( \alpha \) 是学习率,\( r_{t+1} \) 是在 \( (s_t, a_t) \) 后获得的奖励,而 \( s_{t+1} \) 是新状态。6. **探索与利用**:Q函数使得智能体可以在探索(尝试新的、未知的动作以发现更优的策略)和利用(使用当前最佳的策略来获得奖励)之间取得平衡。原创 2024-05-09 08:37:46 · 839 阅读 · 0 评论 -
请你解释PPO在大语言模型和机器人学还有高频股票市场中的具体应用,比方说Agent、Environment、Reward、State分别代表什么?具体如何应用
PPO(Proximal Policy Optimization)是一种流行的强化学习算法,由OpenAI开发。这种算法特别适合于需要平衡探索(Exploration)和利用(Exploitation)的场景,其核心优势在于简单、高效、易于实现,并且在多种任务中都表现出良好的性能。PPO的应用跨越多个领域,其共同点在于通过与环境的交互来不断学习和优化策略,以达到特定的目标。不同领域对Agent、Environment、Reward、State的具体定义有所不同,但核心的强化学习框架保持一致。原创 2024-04-25 22:22:00 · 617 阅读 · 0 评论 -
图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-04-25 22:14:20 · 3990 阅读 · 3 评论 -
LlamaFactory源码解析 PPO
通过,研究人员和开发者可以更有效地在各种NLP任务中实现和测试PPO和其他强化学习技术的应用。这个类提供了一个灵活的框架,不仅支持标准的模型训练和微调,还允许通过强化学习方法来优化生成的文本,使其更具有目标导向和应用适应性。原创 2024-04-23 17:04:02 · 2609 阅读 · 1 评论 -
为什么RLHF中,PPO需要Critic模型而不是直接使用RewardModel
长期价值对智能体的决策具有更全面的影响,可以帮助智能体更好地评估当前状态和动作的长期效果,并指导智能体在长期时间尺度上作出更优的决策。优势函数的作用在于帮助评估当前动作的相对价值,以便在策略更新过程中确定应采取的动作。在PPO算法中,优势函数用于计算策略更新的目标,以便调整策略概率分布来提高优势函数为正的动作的概率,并降低优势函数为负的动作的概率,从而改进策略的性能。总而言之,优势函数在PPO算法中用于评估状态-动作对的相对优劣,帮助确定应该采取的动作,并在策略更新过程中引导策略向更优的方向调整。原创 2024-02-10 17:24:23 · 1729 阅读 · 0 评论 -
大模型强化学习:RLHF、PPO
首先我们要理解什么是策略梯度(Policy Gradient)。以下推导过程包含很多个人理解,并不很严谨,有错误欢迎指出!粗糙理解RL的过程就是,让智能体在一个状态S下选择动作A,然后获得收益R,然后我们希望优化选择动作的策略,使得总体收益的期望最大。因为搜索空间很大,我们利用模型的预测结果决策,同时为了不让模型陷入局部最优而按蒙特卡洛方式一定比例随机游走,在这个过程中得到每个state-action对应的reward作为新的训练样本,即所谓的探索和利用()过程。对一组模型参数,可以得到一组。原创 2023-09-26 10:10:00 · 1009 阅读 · 0 评论 -
RLAIF细节分享&个人想法
当笔者首次在arxiv上发现RLAIF在之前的项目中,笔者曾使用开源数据进行了一系列的强化学习实验,并验证了RL算法确实有一定的提升。然而,当项目进入实际应用阶段,我们常常面临一个问题:缺乏足够的人力进行数据标注。这不仅增加了项目的复杂性,还使得我们很难尝试如PPO、DPO等先进算法。漫长反复的人力标注过程也是一个不容忽视的挑战。RLAIF(基于AI反馈的强化学习)切好解决了这些困难,这也是让我重新研读这篇文章的原因。收集高质量人类偏好标签的瓶颈问题。原创 2023-09-20 19:13:48 · 618 阅读 · 0 评论 -
马尔科夫模型 详解
可以理解为从 �+1 到 � 时刻的部分观测序列并不存在(不必考虑),因此规定 ��(�) 的值为1。其中,���为隐状态转移矩阵,��(��+1)为隐状态-显状态发散概率,��+1(�)为�后面序列对应的后向概率。此时为初始分布,即�0=(�0(1),�0(2),�0(3))=(0.3,0.4,0.3),其中��(�)=�(��=�),�=1,2,3,则有�1=�0∗�,��=�0∗��。其中 ∑�=1���(�)��� 表示上层所有节点到当前层节点的连接, ��(��+1) 为隐状态-显状态发散概率。原创 2023-06-16 10:06:01 · 4189 阅读 · 2 评论 -
强化学习技巧
如果您想了解如何创建自定义环境,我们建议您阅读此。原创 2023-04-22 16:30:23 · 584 阅读 · 0 评论 -
mdp
import copydef print_nice(U): print for i in range(N): for j in range(M): if U[i][j]>=0: print ('% 6.2f ' % U[i][j],) else: ...原创 2019-06-25 17:05:00 · 359 阅读 · 0 评论