强化学习_阿姆姆姆姆姆姆姆的博客-CSDN博客

强化学习

关注

文章平均质量分 92

关注数：文章数：15 文章阅读量：18477 文章收藏量：297

作者: 阿姆姆姆姆姆姆姆

庾信平生无萧瑟，暮年诗赋动江关。

展开

深度强化学习（DRL）算法附录 6 —— NLP 回顾之基础模型篇

NLP 的序列属性和 RL 天然适配，所以 NLP 里的一些模型也可以用到 RL 里面，如 Transformer。去年发表的 MATransformer 在一些多智能体任务上超过了 MAPPO，可见 Transformer 在 RL 上有巨大的发展潜力。这篇文章用来回顾 NLP 基础模型。

原创 2024-04-13 12:45:20 · 1172 阅读 · 0 评论
深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

在另一半的时间里，第二个句子是从语料库中随机抽取的，标记为“假”。这是因为对于任何确定的位置偏移δ，位置 i+δ 处的位置编码可以线性投影位置 i 处的位置编码来表示。bert 开启了预训练模型的风潮，使用了带掩码的语言模型，具体就是通过大量的数据，模型获取了语言信息抽取的能力，从而可以通过 fine-tune 应用到各种 NLP 任务上。根据 self-attention 的模型结构，改变 X 的输入顺序，不影响 attention 的结果，所以还需要引入额外的位置信息，即位置编码。

原创 2024-04-13 12:07:48 · 1275 阅读 · 0 评论
深度强化学习（DRL）算法系列文章合集

这个系列介绍了常用的单智能体强化学习方法，也有些没有写到，比如 SAC，希望以后有时间可以回来补完。下个系列会开始介绍 RLXF（包括 RLHF、RLAIF）欢迎关注。奋斗，追求，不达目的，誓不罢休！

原创 2024-02-26 23:11:49 · 1266 阅读 · 1 评论
深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

在另一半的时间里，第二个句子是从语料库中随机抽取的，标记为“假”。这是因为对于任何确定的位置偏移δ，位置 i+δ 处的位置编码可以线性投影位置 i 处的位置编码来表示。bert 开启了预训练模型的风潮，使用了带掩码的语言模型，具体就是通过大量的数据，模型获取了语言信息抽取的能力，从而可以通过 fine-tune 应用到各种 NLP 任务上。根据 self-attention 的模型结构，改变 X 的输入顺序，不影响 attention 的结果，所以还需要引入额外的位置信息，即位置编码。

原创 2024-02-25 21:15:09 · 923 阅读 · 1 评论
深度强化学习（DRL）算法附录 5 —— CV 基础回顾篇

因为强化学习里面有些状态是图片表示的，需要用 CNN 抽取信息，所以对 CNN 要有基础的了解。

原创 2024-02-24 08:00:00 · 1388 阅读 · 0 评论
深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

Q 基于 P 的相对熵（以 P 为基准，看 Q 和 P 相差多少），描述了 Q 想要达到和 P 一样的概率分布中间还差了多少信息量，所以相对熵为 0 的时候，Q 和 P 概率同分布。熵和信息量类似，但是区别是熵衡量的是整个系统里的所有事件，所以得乘上每个事件发生的概率，做信息量的加权平均（信息量的期望）。那么这也是信息量用计算机的名次比特来做单位（计算机里 1bit 就是 0，1 两个信息，f(0) = log(1/2) ）的原因。那么两个系统之间的熵怎么比较呢，自然而然就有了相对熵的概念。

原创 2024-02-23 00:09:03 · 962 阅读 · 0 评论
深度强化学习（DRL）算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)

是高斯分布，和 Q 没有关系，而且 Q 使用的是确定性策略，实际上针对连续动作空间，采用随机策略，并且随机扰动和 Q 相关，才是更合理的，因为不但增加了探索性，而且探索性和 Q 的大小是相关的，Q 越大随机策略的探索性应该越小。介绍了期望 Sarsa 的方法，是一种比 Sarsa（DDPG 是本质上是 Sarsa）更稳定的方法，因为取了期望，相当于考虑了更多的动作，所以也可以用到 DDPG 里。所以为了减小这种误差，前者是为了经验回放采样数据的时候，获得更多的探索性，所以可以随心所欲的探索。

原创 2024-02-22 00:20:55 · 1211 阅读 · 1 评论
深度强化学习（DRL）算法 4 —— Deep Deterministic Policy Gradient (DDPG)

就像 q-learning 的 td-target 使用的 max 操作使得模型的偏差更大，因为 q 的值被高估了（实际上这也是 double DQN 的改进），高估问题会影响模型的探索性，DDPG 虽然没有 max 操作，但是仍旧有高估问题的可能。lossq 和 lossa 同时更新不合理，下篇文章提出改进DQN 使用的是深度学习版本的 q-learning，我们都知道期望 Sarsa 是比 Q-learning 更稳定的算法，我们也可以从这个角度出发提出改进。），那么就增加了探索性。

原创 2024-02-21 00:26:45 · 877 阅读 · 0 评论
深度强化学习（DRL）算法 3 —— Deep Q-learning(DQN)

所以我们需要固定一个 NN 的参数，训练一段时间，再把那个得到训练的 NN 的参数 copy 到那个固定参数的 NN。为什么这里没有用重要性采样，因为目标策略的序列和行动策略没关系，不像 MC off-policy 需要用行动策略的采样来评估目标策略的采样。，让 NN 逼近 td-target ，就可以达到减小 td-error 的目的，是不是有监督学习的味道了。所以可以直接采样一系列的（s,a,r’,s’)，用于神经网络的训练，这就是所谓的经验回放。Q-learning（离轨）这就是最原始的 DQN。

原创 2024-02-20 00:02:08 · 894 阅读 · 0 评论
深度强化学习（DRL）算法附录 3 —— 蒙特卡洛方法（MC）和时序差分（TD）

状态转移概率一般是不知道的，所以我们需要 model-free 的方法，如 MC 和 TD。

原创 2024-02-19 00:27:06 · 1166 阅读 · 1 评论
深度强化学习（DRL）算法附录 2 —— 策略迭代和价值迭代

和贝尔曼方程一样，得到 v*(s) 和 v*(s‘）以及 q*(s,a) 和 q*(s’, a’) 的关系，这就是贝尔曼最优方程的核心思想。得到 v(s) 和 v(s‘）以及 q(s,a) 和 q(s’, a’) 的关系，这就是贝尔曼方程的核心思想。(这里不能把求和替换成 max 的原因是，我们只能让 v* 最优，因为 p 由系统决定，我们无法决定）（4）即把（2）带入（1），把（1）带入（2）产生的两个等式。即把（3）带入（4），把（4）带入（3）产生的两个等式。时刻的策略的好坏，我们定义在。

原创 2024-02-18 19:50:21 · 875 阅读 · 1 评论
深度强化学习（DRL）算法 2 —— PPO 之 GAE 篇

到这里，PPO 算法相关的细节就讲完了，但是 PPO 的代码实现上还有许多细节，可以参考cleanrl是目前我看过的可读性最好的 ppo 代码实现，对具体实现感兴趣的可以看下这个 repo。接下来的文章会介绍 DRL 其他的常用算法，如 DDPG、SAC 等。

原创 2024-02-17 14:55:20 · 2776 阅读 · 0 评论
深度强化学习（DRL）算法附录1 —— 贝尔曼公式

根据 Contraction mapping theorem 可知贝尔曼最优公式中的 v（state value）存在唯一的最优解，并且可能有多种最优策略。

原创 2024-02-17 14:46:23 · 1103 阅读 · 1 评论
深度强化学习（DRL）算法 2 —— PPO 之 Clipped Surrogate Objective 篇

在之前的文章里介绍了，提出了两个缺点，其中缺点一，在后续提出的 DRL 算法 PPO 解决了，今天我们就来看看大名鼎鼎的 PPO 算法。

原创 2024-02-16 00:02:41 · 1474 阅读 · 0 评论
深度强化学习（DRL）算法 1 —— REINFORCE

就像引言里所描述的养成习惯的四个步骤，如果我们想让机器也有自己的“习惯”，去掉机器没有的渴求属性，就是强化学习所做的事情 —— 帮机器养成“习惯”，而 DRL 就是使用深度学习的技术去实现强化学习算法。今天是系列文章的第一篇，会介绍最基础的 policy-based 的算法 —— REINFORCE。

原创 2024-02-15 10:11:45 · 1128 阅读 · 1 评论

强化学习

作者: 阿姆姆姆姆姆姆姆

深度强化学习（DRL）算法 附录 6 —— NLP 回顾之基础模型篇

深度强化学习（DRL）算法 附录 6 —— NLP 回顾之预训练模型篇

深度强化学习（DRL）算法系列文章合集

深度强化学习（DRL）算法 附录 6 —— NLP 回顾之预训练模型篇

深度强化学习（DRL）算法 附录 5 —— CV 基础回顾篇

深度强化学习（DRL）算法 附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

深度强化学习（DRL）算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)

深度强化学习（DRL）算法 4 —— Deep Deterministic Policy Gradient (DDPG)

深度强化学习（DRL）算法 3 —— Deep Q-learning(DQN)

深度强化学习（DRL）算法 附录 3 —— 蒙特卡洛方法（MC）和时序差分（TD）

深度强化学习（DRL）算法 附录 2 —— 策略迭代和价值迭代

深度强化学习（DRL）算法 2 —— PPO 之 GAE 篇

深度强化学习（DRL）算法 附录1 —— 贝尔曼公式

深度强化学习（DRL）算法 2 —— PPO 之 Clipped Surrogate Objective 篇

深度强化学习（DRL）算法 1 —— REINFORCE

深度强化学习（DRL）算法附录 6 —— NLP 回顾之基础模型篇

深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

深度强化学习（DRL）算法附录 6 —— NLP 回顾之预训练模型篇

深度强化学习（DRL）算法附录 5 —— CV 基础回顾篇

深度强化学习（DRL）算法附录 4 —— 一些常用概念（KL 散度、最大熵 MDP etc.）

深度强化学习（DRL）算法附录 3 —— 蒙特卡洛方法（MC）和时序差分（TD）

深度强化学习（DRL）算法附录 2 —— 策略迭代和价值迭代

深度强化学习（DRL）算法附录1 —— 贝尔曼公式