EasyRL 强化学习笔记 7、8章节（DQN进阶，DQN连续动作）

最新推荐文章于 2024-05-06 01:40:33 发布

strawberry47

最新推荐文章于 2024-05-06 01:40:33 发布

阅读量780

点赞数

分类专栏：学习笔记强化学习文章标签：强化学习

原文链接：https://datawhalechina.github.io/easy-rl/#/

版权

45 篇文章 11 订阅

订阅专栏

20 篇文章 10 订阅

订阅专栏

DQN（进阶技巧）

**原因：**DQN中，Q值往往被高估了。
在这里插入图片描述
设计了两个Q-network：

实现上：
原本DQN就有两个network，目标网络（固定不动）和行为网络（不断更新）。在Double DQN中，使用行为网络选动作，目标网络（即固定不动的网络）去计算值。

Double DQN 对DQN的改动很少，几乎没有增加运算量，也不需要增加新的网络。

改变了网络的架构。不直接输出Q值，而是分成两条路径：

第一条路径输出 scalar， $V (s)$ 。（不同状态有一个值）
第二条路径输出一个 vector $A (s, a)$ 。（不同状态-动作对，都有一个值）
把两个加起来就得到Q值

优点：不需要把所有的 state-action pair 都 sample ，就可以高效地估计 Q 值。
实现时，需要给A加约束。大概是归一化吧，这个地方我没有细看

从reply buffer中采样数据时，不再均匀采样，而是赋予那些训练不好的数据priority，提高他们被采样的概率。
prioritized experience replay 的时候，不仅会更改采样流程，也会间接更改参数更新过程。所以 prioritized experience replay 不仅改变了 sample 数据的分布，还改变了训练过程。

在这里插入图片描述
sample N个步骤再估值
（这部分没有认真看）

在这里插入图片描述
针对exploration进行改进

在这里插入图片描述

在这里插入图片描述
把前面所有的方法都综合起来
总结总结总结

高冷的面试官：DQN都有哪些变种？引入状态奖励的是哪种？
答：DQN三个经典的变种：Double DQN、Dueling DQN、Prioritized Replay Buffer。

原文链接
DQN要维护一个Q函数，不好处理连续动作。
这个地方，引出了actor-critic = 基于策略的PPO 和基于价值的DQN。

Q-learning相比于policy gradient based方法为什么训练起来效果更好，更平稳？
在 Q-learning 中，只要能够 estimate 出Q-function，就可以保证找到一个比较好的 policy，提升对应的 policy。在这个回归问题中，我们可以时刻观察我们的模型训练的效果是不是越来越好，一般情况下我们只需要关注 regression 的 loss 有没有下降，你就知道你的 model learn 的好不好。

关注