强化学习p2-价值学习

最新推荐文章于 2023-11-07 16:59:18 发布

云生死海

最新推荐文章于 2023-11-07 16:59:18 发布

阅读量1.1k

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/qq_44641344/article/details/130578472

版权

基本概念

折扣回报(Discounted Return)

在 MDP 中，通常使用折扣回报 (discounted return)，给未来的奖励做折扣。折扣回报的定义如下:
$U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+\gamma ^3R_{t+3}+...$
这里的 $\gamma \in [0,1]$ 叫折扣率。对待越久远的未来，给奖励打的折扣越大。
$U_t$ 是一个随机变量，随机性来自于t时刻之后的所有状态和动作

动作价值函数(Action-value function)
假设我们已经观测到状态 $s_t$ ，而且做完决策，选中动作 $a_t$ 。那么 $U_t$ 中的随机性来自于 $t + 1$ 时刻起的所有的状态和动作: $S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n}$
$Q_\pi(s_t,a_t)=E_{{S_{t+1},A_{t+1},S_{t+2},A_{t+2},...,S_{n},A_{n}}}[U_t | St=s_t,A_t=a_t]$
期望中的 $S_t=s_t$ 和 $A_t=a_t$ 是条件，意思是已经观测到 $S_t$ 与 $A_t$ 的值。条件期望的结果 $Q_\pi(s_t,a_t)$ 被称作动作价值函数 (action-value function)。

作用：根据策略 $\pi,Q_\pi(s,a)$ 来估计当前状态 $s$ 对于智能体选择动作 $a$ 是否明智，得到好的效果

最优动作价值函数(Optimal action-value function)

最优动作价值函数 $Q^*(s_t,a_t)$ 用最大化消除策略 $\pi$ :
$Q^*(s_t,a_t)= \mathop{max}\limits_{\pi} Q_\pi(s_t,a_t)$
$Q^*$ 可以对当前状态 $s$ 对执行动作 $a$ 做评测,得到好坏程度
可以这样理解 $Q^*$ : 已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $\pi$ ，回报 $U_t$ 的期望不可能超过 $Q *$ 。

最优动作价值函数的用途：假如我们知道 $Q^*$ ，我们就能用它做控制。

Deep Q-Network(DQN)

我们希望知道最优动作价值函数 $Q^*$ ，因为 $Q^*$ 就像先知一样，可以在 $t$ 时刻就预见 $t$ 到 $n$ 时刻之间的累计奖励的期望。假如我们知道 $Q^*$ ，我们就可以根据 $Q^*$ 的值选择最优动作(best action) $a^*=\mathop{argmax}x_aQ^*(s,a)$ ，然后就可以最大化未来的累计奖励。

我们不知道 $Q^*$ 的函数，我们希望用神经网络 $Q (s, a; w)$ 去近似学习 $Q^*$

我们观测到 $t$ 时刻的状态 $s_t$ ，然后根据 DQN 选出能够使 $t$ 时刻 Q 值最大的动作 $a_t$ ，执行动作 $a_t$ ，得到奖励 $r_t$ ,再根据环境状态转移的概率函数得到下一个状态 $s_{t+1}$ ，依次进行，直到这一回合结束。如下图所示：
在这里插入图片描述

时间差分算法(Temporal Difference Learning)

我们有一个模型 $Q (s, d; w)$ ，其中 s是起点，d 是终点，w 是参数。
假如s和d直接有一地点c
模型估计 $Q (s, d, w) = 1000 min$
实际s到c花费300min $Q (c, d, w) = 600 min$
更新估计 300+600 = 900min
我们把y = 900min称为TD target 这样的估计更准确，也不用跑完全程。

用 TD 算法训练 DQN(TD Learning for DQN)

折扣回报
$U_t = R_t+\gamma R_{t+1}+\gamma ^2R_{t+2}+\gamma ^3R_{t+3}+...$
$U_t = R_t+\gamma \cdot U_{t+1}$
DQN 在 $t$ 时刻的输出： $Q(s_t,a_t;w)$ ，是对 $U_t$ 的估计；在 $t + 1$ 时刻的输出 $Q(s_{t+1}，a_{t+1};w)$ ，是对U_{t+1}的估计。因此，我们可以得到如下等式：
$Q(s_t,a_t;w) \approx r_t+\gamma \cdot Q(s_{t+1},a_{t+1};w)$
使用 TD learning 训练 DQN 流程：
1、在 $t$ 时刻做预测 Prediction: $Q(s_t,a_t;w_t)$
2、计算 TD target: $y_t=r_t+\gamma \cdot \mathop{max}\limits_{a} Q(s_{t+1},a;w_t)$
3、计算损失函数 Loss（TD error）: $L_t=\frac{1}{2}[Q(s_t,a_t;w_t)-y_t]^2$

4、做梯度下降更新参数 $w$ :# $w_{t+1}=w_t-\alpha \cdot \frac{\mathrm{\partial}L_t}{\mathrm{\partial}w}|_{w=w_t}$
.

云生死海

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习p2-价值学习

在 MDP 中，通常使用，给未来的奖励做折扣。UtRtγRt1γ2Rt2γ3Rt3...这里的γ∈01叫折扣率。对待越久远的未来，给奖励打的折扣越大。Ut是一个随机变量，随机性来自于t时刻之后的所有状态和动作假设我们已经观测到状态st，而且做完决策，选中动作at。那么Ut中的随机性来自于t1St1At1St2At2...SnAnQπst。
复制链接

扫一扫