强化学习_06_DataWhale深度Q网络

最新推荐文章于 2024-01-17 12:47:51 发布

Scc_hy

最新推荐文章于 2024-01-17 12:47:51 发布

阅读量359

点赞数

分类专栏：强化学习文章标签：深度学习强化学习

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.csdn.net/Scc_hy/article/details/122009778

版权

强化学习专栏收录该内容

24 篇文章 8 订阅

订阅专栏

习题

6.1 为什么在DQN 中采用价值函数近似（value function approximation）的表示方法？

因为状态都是连续的状态空间巨大，不能像Qtable一样明确的算出所以状态点的价值，所以用深度Q函数对连续动作输出
近似值。

6.2 评论员的输出通常与哪几个值直接相关？

与状态和演员有关。状态、价值本质上来说是依赖于演员的。不同的演员在相同的状态下也会有不同的输出。

6.3 我们通常怎么衡量状态价值函数 $V^\pi(s)$ ?其优势和劣势分别有哪些？

这个其实就从计算方式来看，和表格学习方法是一样的：

montacarlo: 回合结束后进行迭代
- $Q_t=Q_t + \eta * (G_t - Q_t)$
- $G_t = \sum_t^T\gamma^tR_t$
时序差分
- $Q_t=Q_t + \eta * (G_t - Q_t)$
- $G_t = R_t + \gamma Q_{t+1}$
- DQN用的是 $V^\pi(s_t)=V^\pi(s_{t+1})+r_t$
区别:
- 参数迭代的时间
- montacarlo本身既有很大的随机性，我们可将其 $G_a$ 看成一个随机变量，所以其最终的偏差会很大
- 时序差分的方法，其具有随机性的变量为r，因为计算 $s_t$ 我们采用同一个动作，所得奖励不一定一样。
- 但是相对于 $G_a$ 的随机程度来说，r的随机性非常小，这是因为本身G_a就是由很多r组合而成的。

6.4 基于我们上面说的网络(monota carlo)的方法，我们怎么训练这个网络呢？或者我们应该将其看做机器学习中什么类型的问题呢？

训练步骤:

每个回合结束，多次收集状态-动作到缓冲区，采样并构建数据集([s, a] [y])。
用数据集训练并更新Q函数
重复以上步骤直到收敛

将其看做回归任务

6.5 基于上面介绍的基于TD的网络方法，具体地，我们应该怎么训练模型呢?

初始化Q函数，目标函数 $\hat{Q}=Q$
对于每个回合
- 对于每一个时间步:
  - 对于给定的状态 $s_t$ , 基于波尔兹曼探索执行动作 $a_t$
  - 获得反馈 $r_t$ , 新状态 $s_{t+1}$
  - 将 $s_t, a_t, r_t, s_{t+1})$ 存储在缓冲区中
  - 从缓冲区中采样 $s_i, a_i, r_i, s_{i+1})$
  - 计算出目标值 $y=ri+max_a\hat{Q}(s_i+1, a)$
  - 更新Q的参数使得 $Q(s_i, a_i)$ 尽可能接近于y
  - 每C步重置目标函数 $\hat{Q}=Q$

$s_t$ 进入网络会得到 $V^\pi(s_t)$ ， $s_{t+1}$ 进入网络会得到 $V^\pi(s_{t+1})$ ，同时 $V^\pi(s_t)=V^\pi(s_{t+1})+r_t$ ，所以问你希望两者的之差尽量接近 $r_t$ 。以此为约束进行参数迭代。

6.6 动作价值函数和状态价值函数的区别于联系是什么？

联系：目的都是为了得到累积奖励的期望值
区别：

状态价值函数的输入是一个状态
动作价值函数的输入是一个状态和动作

6.7 Q函数的两种表示方法？

输入状态&动作的时候，输出一个标量:该状态下该动作的价值
输入仅仅一个状态时，输出多值：该状态下所有动作的价值

6.8 当我们有了Q函数后，我们怎么找到更好的策略 $\pi'$ 呢？

当我们已经学习好 $\pi$ 的Q函数，那么根据公式 $\pi'(s)=argmax_aQ^\pi(s, a)$ 可以得知，我们的下一个策略行动定是更好的。

6.9 解决探索-利用窘境问题的探索方法有哪些？

本质都是设定一定的概率进行随机探索。
优化点都是当Q训练到一定程度进行探索的概率会降低非常多。

$\epsilon$ -贪心探索
波尔兹曼探索

6.10 我们使用经验回放有什么好处？

因为我们训练的时候更多的消耗花费在环境交互上。而环境交互的重点就是经验数据，采用经验回放，可以多次高效利用。
同时，经验回放中会存放不同策略产出的经验，这数据的差异非常有利于模型的学习，提升模型的泛化能力。

6.11 在经验回放中我们是要观察\pi的价值，里面混杂了一些不是\pi的经验，这会有影响么？

不影响，因为是经验采用，并不采样路径。

6.12 DQN和Q学习有什么异同点？

相同：

同样可以采用时序差分和蒙特卡洛方法进行迭代
同样是对状态/状态-动作的价值学习
解决类似的问题

差异：

适用范围不一样
- 理论上DQN的适用会更广，其不受状态空间的限制
- Q学习对于连续动作的学习，会状态空间爆炸，且学习不充分
价值函数不同
- DQN采用深度Q网络
- Q学习采用表格
学习的数据同
- DQN从历史数据中随机采样
- Q学习直接用下一状态的数据进行学习

Scc_hy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习_06_DataWhale深度Q网络

习题6.1 为什么在DQN 中采用价值函数近似（value function approximation）的表示方法？因为状态都是连续的状态空间巨大，不能像Qtable一样明确的算出所以状态点的价值，所以用深度Q函数对连续动作输出近似值。6.2 评论员的输出通常与哪几个值直接相关？与状态和演员有关。状态、价值本质上来说是依赖于演员的。不同的演员在相同的状态下也会有不同的输出。6.3 我们通常怎么衡量状态价值函数Vπ(s)V^\pi(s)Vπ(s)?其优势和劣势分别有哪些？由Qπ(s,a)Q^\
复制链接

扫一扫