强化深度学习task-04

最新推荐文章于 2024-07-13 21:05:40 发布

lukem44

最新推荐文章于 2024-07-13 21:05:40 发布

阅读量125

点赞数

本文链接：https://blog.csdn.net/lukem44/article/details/109448795

版权

Q-learning
参考资料
Q-learning (Basic Idea)：https://www.bilibili.com/video/BV1MW411w79n?p=3
Q-learning (Advanced Tips)： https://www.bilibili.com/video/BV1MW411w79n?p=4
Q-learning (Continuous Action)：https://www.bilibili.com/video/BV1MW411w79n?p=5
Actor-Critic：https://www.bilibili.com/video/BV1MW411w79n?p=6
教程
一、介绍（introduction）

状态价值函数（state value function）
当看到一个状态s时，用actor $\pi$ 做出一系列行动选择后累计得分的期望值（ $V^\pi(s)$ ）
估算 $V^\pi(s)$ 的方法
（1）蒙特卡洛法（MC）：随机产生state,计算reward。缺点：很难覆盖到所有的状态，误差较大，而且方差比较大。
（2）Temporal-difference(TD)approach:针对有的游戏很长的情况，这种方法不需要必须将游戏进行到底。因为 $V^\pi(s_{t+1})$ 与 $V^\pi(s_{t})$ 之间的差值就是 $r_t$ ，因此，当预测出 $V^\pi(s_{t})$ ，可计算出 $V^\pi(s_{t+1})$ ： $V^\pi(s_{t+1})=V^\pi(s_{t})+r_t$ 。缺点：如果 $V^\pi(s_{t})$ 算不准，则 $V^\pi(s_{t+1})$ 也会算不准，但方差比较小。这种方法用的更多
两种方法得出的结果可能不一样，比如下面这个例子：

一共进行了8次采样，第一次是先 $s_a$ 状态，然后又到 $s_b$ 状态，最后reward为0，还有7次是直接采样到 $s_b$ ，1次reward是0，6次是1，对于 $s_b$ 而言，价值为6/8=3/4，对于 $s_a$ 而言，不同方法价值函数也不同。MC方法的结果是0（根据第一次采样结果），TD的结果是3/4（ $s_a$ 通过reward=0到达 $s_b$ ，所以最终结果就是 $V^\pi(s_b)$ ）
Q-function
两种写法：

从而可以对 $\pi$ 进行更新：

可以证明 $V^\pi<=V^{\pi'}$ :

在具体计算Q时用到下面的方法：
在这里插入图片描述
左右两个Q有中间这个等式约束。首先将右边的Q固定住，用中间的公式去拟合左边的Q，左边的Q在更新多次后再赋值给右面的Q，然后再用中间公式更新左边的Q

lukem44

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化深度学习task-04

Q-learning参考资料Q-learning (Basic Idea)：https://www.bilibili.com/video/BV1MW411w79n?p=3Q-learning (Advanced Tips)： https://www.bilibili.com/video/BV1MW411w79n?p=4Q-learning (Continuous Action)：https://www.bilibili.com/video/BV1MW411w79n?p=5Actor-Critic：
复制链接

扫一扫