RL-赵-(八)-Value-Based03：Q-learning Function Approximation【目标：计算出最优“值函数”参数，通过该“值函数”计算出的Action Value最优】

u013250861

已于 2023-12-17 01:04:37 修改

阅读量367

点赞数 7

分类专栏： RL/强化学习文章标签：强化学习

于 2023-12-16 01:11:31 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/135027523

版权

RL/强化学习专栏收录该内容

50 篇文章 13 订阅

订阅专栏

在这里插入图片描述

我们知道：
“TD learning” with “value function approximate”：
$\color{red}{w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{v}(s_{t+1},w_t)-\hat{v}(s_t,w_t)\right]\nabla_w\hat{v}(s_t,w_t)}$

“Sarsa算法” with “value function approximate”：
$\color{red}{w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma\hat{q}(s_{t+1},a_{t+1},w_t)-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t)}$

类似地，tabular Q-learning也可以扩展到value function approximation的情况，The q-value更新规则是：

“Q-learning算法” with “value function approximate”：

$\color{red}{w_{t+1}=w_t+\alpha_t}\left[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1},a,w_t)-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t)$

这与Sarsa with Function Approximation算法相同,除了 $\hat{q}\left(s_{t+1},a_{t+1},w_t\right)$ 被替换为 $\mathrm{max}_{a\in\mathcal{A}(s_{t+1})}\hat{q}\left(s_{t+1},a,w_t\right)$ 。

在这里插入图片描述
Q-learning with function approximation伪代码（on-policy version）：

对每一个episode我们做如下的操作：

如果当前的这个状态 $s_t$ 还不是 target state，那我们做如下的操作，这个任务实际上就是对应我从一个状态出发，然后我要到目标状态找到一个好的路径过去就可以。所以第一步是要生成数据：
- 我在 $s_t$ 的时候我要根据这个 $π_t(s_t)$ 策略然后采用 action $a_t$ ，然后和环境进行交互得到 $r_{t+1},s_{t+1}$ 。
- 然后根据这个数据下面我们来做value update：
  $w_{t+1}\quad=\quad w_{t}\quad+\quad\alpha_{t}\left[r_{t+1}+\gamma\max_{a\in\mathcal{A}(s_{t+1})}\hat{q}(s_{t+1},a,w_{t})-\hat{q}(s_t,a_t,w_t)\right]\nabla_w\hat{q}(s_t,a_t,w_t)$
  注意这儿我们并不是直接更新 $\hat{q}(s_{t+1},a_{t+1})$ ，不是要计算 $\hat{q}(s_{t+1},a_{t+1})$ 应该等于什么，而是我们要更新它的这个权重参数 $w$ ，这是和之前tabular的Sarsa的一个唯一的区别。
有了这个之后我们就可以来做policy update，这个和之前的tabular的Sarsa是一模一样的。也就是说我会选择在 $s_t$ 所有action当中所对应的action value最大的那个action，然后我会给它一个比较大的概率，这里边的策略是ε-Greedy，其它的action会给一个比较小的一个概率。
- 值得注意的是在之前在tabular的情况下，其实我可以直接去索引就可以得到这个 $\hat{q}(s_{t+1},a_{t+1})$ ；
- 现在我需要去算一下，把这个s和所对应的这个a代到这个 “值函数” 里边去算一下这个函数值 $\hat{q}(s_{t+1},a_{t+1})$ 然后再做比较；

在这里插入图片描述

参考资料：
【强化学习】强化学习数学基础：值函数近似
 6. 值函数近似(Value Function Approximation)
第六讲价值函数的近似法(Value Function Approximation)

u013250861

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
RL-赵-(八)-Value-Based03：Q-learning Function Approximation【目标：计算出最优“值函数”参数，通过该“值函数”计算出的Action Value最优】

固定 target network，更新main network的参数。main network的参数更新一定周期后，将其参数赋值给target network，继续更新main network。以下案例说明：再强大的算法也需要充分的数据，否则结果不理想。五、Deep Q-learning。
复制链接

扫一扫

专栏目录