强化学习
文章平均质量分 92
RL强化学习
山顶夕景
实践出真知
展开
-
【LLM】大模型之RLHF和替代方法(DPO、RAILF、ReST等)
SFT使用交叉熵损失函数,目标是调整参数使模型输出与标准答案一致,不能从整体把控output质量,RLHF(分为奖励模型训练、近端策略优化两个步骤)则是将output作为一个整体考虑,优化目标是使模型生成高质量回复。启发1:像可以用6b、66b依次得到差一点、好一点的target构造排序数据集,进行DPO直接偏好学习或者其他RLHF替代方法(RAILF、ReST等),比直接RLHF更方便训练启发2:为了减少幻觉(如拒绝回答),可以构造排序数据集(如good response为拒绝话术,bad respo原创 2023-12-11 22:36:10 · 7526 阅读 · 1 评论 -
【LLM】OpenAI o1模型和相关技术
- OpenAI o1 模型中推理过程的工作原理 - 1、o1模型引入了reasoning tokens。这些token用于"思考",帮助模型分解对提示的理解,并考虑生成回应的多种方法。 - 2、在生成推理token后,模型会产生一个可见的完成token作为答案,同时从上下文中丢弃推理token。- OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rati原创 2024-10-05 18:47:30 · 961 阅读 · 0 评论 -
【RL】(task5)PPO算法和代码实现
分为三个步骤step1 我做你看:有监督学习,从训练集中挑出一批prompt,人工对prompt写答案。其实就是构造sft数据集进行微调。step2 你做我看:奖励模型训练,这次不人工写答案了,而是让GPT或其他大模型给出几个候选答案,人工对其质量排序,Reward model学习一个打分器;这个让机器学习人类偏好的过程就是【对齐】,但可能会导致胡说八道,可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下,其中 rθ(x,y) 是奖励模型对提示x和完成y的标量原创 2024-01-30 00:19:21 · 1030 阅读 · 0 评论 -
【RL】(task4)DDPG算法、TD3算法
一、DDPG算法DDPG(Deep Deterministic Policy Gradient)算法DDPG算法是一种结合了深度学习和确定性策略梯度的算法。它主要解决的是在连续动作空间中,智能体(agent)如何通过不断尝试来学习到一个最优策略,使得在与环境交互的过程中获得最大的回报。深度学习:使用深度神经网络来近似表示价值函数和策略。确定性策略:不像一些随机策略,确定性策略为每个状态输出一个确定的动作,这样更容易进行优化。策略梯度:通过计算策略的梯度来更新策略,使得策略朝着更好的方向改进。原创 2024-01-25 00:27:37 · 689 阅读 · 0 评论 -
【RL】(task3)A2C、A3C算法、JoyRL
在强化学习中,有一个智能体(agent)在某种环境中采取行动,根据其行动的效果获得奖励。目标是学习一种策略,即在给定的环境状态下选择最佳行动,以最大化长期累积的奖励。A2C(Advantage Actor-Critic)Actor-Critic 框架:A2C 基于 Actor-Critic 框架。在这个框架中,有两个主要部分:Actor 和 Critic。Actor 负责选择行动,Critic 评估所选行动的好坏。简单来说,Actor 是决策者,而 Critic 是评价者。Advantage 概念原创 2024-01-21 22:17:18 · 623 阅读 · 0 评论 -
【RL】(task2)策略梯度算法
策略梯度(Policy Gradient)算法是一类用于解决强化学习问题的算法,它通过直接对策略进行参数化,并利用梯度上升的方法来优化策略参数,从而最大化期望回报。策略梯度算法:智能体的行为策略决定了它在环境中的行动,而策略的参数化表示则决定了行为策略的具体形式。智能体的目标是找到一组最优的策略参数,使得在遵循该策略与环境交互时,能够获得最大的累积奖励。策略通常表示为一个参数化的概率分布,智能体根据这个分布来选择动作。例如,如果我们有一个离散的动作空间(如上下左右移动的动作),策略可以是动作的概率分布;原创 2024-01-20 16:51:23 · 1042 阅读 · 0 评论 -
【RL】(task1)马尔科夫过程、动态规划、DQN
一、马尔科夫过程递归结构形式的贝尔曼方程计算给定状态下的预期回报,这样的方式使得用逐步迭代的方法就能逼近真实的状态/行动值。有了Bellman equation就可以计算价值函数了马尔科夫过程描述了一个具有无记忆性质的随机过程,未来状态只依赖于当前状态,与过去状态无关,类似于一个人在空间中的随机游走。二、动态规划动态规划:多阶段决策问题的方法,它将问题分解为一系列的子问题,并通过保存子问题的解来构建整体问题的解。贝尔曼方程 类比于回报公式��=��+1+���+1原创 2024-01-16 00:10:20 · 1025 阅读 · 1 评论 -
【王喆-推荐系统】模型篇-(task9)强化学习推荐模型DRN
学习总结(1)深度推荐模型的前沿趋势,强化学习(Reinforcement Learning,又叫增强学习)与深度推荐模型的结合。强化学习的大体过程:通过训练一个智能体(它与环境交互,不断学习并强化自己的智力),从而指导自己的下一步行为,取得最大的预期收益。可见其优势——模型能够实时更新,用户行为快速反馈等。(2)强化学习的落地不容易,工程量巨大(涉及到了模型训练、线上服务、数据收集、实时模型更新等几乎推荐系统的所有工程环节)。不像之前学过的深度学习模型,只要重新训练一下它,就可以改进一个模型结构。本次原创 2021-11-08 11:36:23 · 1282 阅读 · 0 评论 -
【LLM】RLHF机制(Reinforcement Learning from Human Feedback)
RLHF分为三个步骤我做你看:有监督学习,从训练集中挑出一批prompt,人工对prompt写答案你做我看:奖励模型训练,这次不人工写答案了,而是让GPT3给出几个候选答案,人工对其质量排序,Reward model学习一个打分器;这个让机器学习人类偏好的过程就是【对齐】,但可能会导致胡说八道,可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下,其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出,具有参数θ,原创 2023-07-11 10:57:33 · 1355 阅读 · 0 评论