强化学习 - DQN（Deep Q-network）（1）

最新推荐文章于 2024-02-17 09:05:28 发布

下一个拐角%

最新推荐文章于 2024-02-17 09:05:28 发布

阅读量1.3k

点赞数 2

分类专栏：强化学习文章标签：学习

本文链接：https://blog.csdn.net/qq_44430026/article/details/125855920

版权

强化学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

改进点

之前的 值学习方法（Q-learning），表格型，因为值函数（状态值函数V(s)或状态动作值函数Q(s,a)）是以表格形式存储 Q_table 。现实状态空间连续、无穷，所以 值函数 近似 利用函数 直接 拟合状态值函数或状态动作值函数。

s,a 分别是状态 s 和动作 a 的向量表示，
函数 Qϕ(s,a) 通常是一个参数为ϕ 的函数，比如神经网络，输出为一个实数，称为Q网络(Q-network)。

所以：【DQN 是指基于深度学习的 Q-learning 算法，主要结合了价值函数近似(Value Function Approximation)与神经网络技术，并采用了 目标网络 target Network 和 经历回放 Experience replay 的方法进行网络的训练。】

学习的是啥？（1）Vπ(s)

value-based 学习的是 critic （评论家），而不是策略。

一种评论家-- State Value Function Vπ(s) -- 评论家的输出值取决于状态state 和演员（actor） π。【注意：评论家都是绑一个演员的，评论家没有办法去凭空去评价一个状态的好坏】。

critic 作用：它是在衡量某一个演员（ π）的好坏，而不是衡量一个状态的好坏【Policy Evaluation(策略评估)】。

怎么衡量Vπ(s)？State Value Function Estimation

MC-采样

训练 Vπ(s) 网络时，是一个 回归问题，网络的输出就是一个值：在输入 sa 的时候，输出的值跟 Ga 越近越好，输入 s_bsb 的时候，输出的值跟 Gb 越近越好。

这里的 G 是累计奖励【玩游戏的时候，看做一个随机变量】，也就是从某一状态开始到一个回合游戏结束后，才可以更新网络。导致 MC方法问题是 方差大，

TD-时序差分

在游戏的某一个情况，某一个状态 s_t 的时候，采取动作 a_t，得到奖励r_t，跳到状态st+1，就可以使用 TD 的方法。

注意：！！在训练的时候，并不是直接去估测 V，而是希望得到的结果 V 可以满足这个式子。

训练 Vπ(s) 网络：希望它们两个相减的 loss 跟 r_t越接近，训练下去，更新 V 的参数

MC 和 TD 的差别

这里体现了不同的方法，考虑了不同的假设：

第一个回合， s_a得到奖励 0 以后，再跳到 s_b 也得到奖励 0：

一个可能是： s_a是一个标志性的状态，只要看到 s_a 以后，s_b 就会拿不到奖励，s_a可能影响了 s_b。 MC 的算法的话，把 s_a 影响 s_b 这件事考虑进去。
另一个可能是：看到 s_a 以后，s_b的奖励是 0 这件事只是一个巧合，并不是 s_a所造成，而是因为说 s_b 有时候就是会得到奖励 0，这只是单纯运气的问题。其实平常 s_b会得到奖励期望值是 3/4，跟 s_a是完全没有关系的。

学习的是啥？（2）Qπ(s，a)

另一种评论家-- Q-function，又叫state-action value function(状态-动作价值函数)。

--输入的是 （s,a）对。

【？？注意：

Q-function 有一个需要注意的问题是，这个演员π，在看到状态 s 的时候，它采取的动作不一定是 a。

Q-function 假设在状态 s 强制采取动作 a。不管你现在考虑的这个演员π，它会不会采取动作 a，这不重要。在状态 s 强制采取动作 a。接下来都用演员 π 继续玩下去，就只有在状态 s，我们才强制一定要采取动作 a，接下来就进入自动模式，让演员π 继续玩下去，得到的期望奖励才是Qπ(s,a) 。】

critic 作用：有了这个 Q-function，我们就可以决定要采取哪一个动作，我们就可以进行策略改进(Policy Improvement)。找到 π′ ，使得对所有可能的状态 s 而言，Vπ′(s)≥Vπ(s)。

*** 这里： ***

这个 π′ 是用 Q-function 推出来的，没有另外一个网络决定 π′ 怎么交互，有 Q-function 就可以找出π′。
但是这边有另外一个问题就是，在这边要解一个 arg max 的问题，所以 a 如果是连续的就会有问题。如果是离散的，a 只有 3 个选项，一个一个带进去，看谁的 Q 最大，没有问题。

*** Q-function 有两种写法：****