强化学习笔记_5_TD-Learning

k_kun

已于 2022-12-31 15:57:08 修改

阅读量96

点赞数

分类专栏：强化学习文章标签：人工智能算法

于 2022-12-31 15:56:58 首次发布

本文链接：https://blog.csdn.net/k_kun/article/details/128506153

版权

强化学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1.Sarsa算法

每次使用五元组 $s_t,a_t,r_t,s_{t+1},a_{t+1})$ 更新参数，即State-Action-Reward-State-Action (SARSA)

1.0.Derive TD Target

Discounted Return, $R_t$ depends on $S_t,A_t,S_{t+1})$
$\begin{aligned} U_t&=R_t+\gamma·R_{t+1}+\gamma^2·R_{t+2}··· \\&=R_t+\gamma·(R_{t+1}+\gamma·R_{t+2}···) \\&=R_t+\gamma·U_{t+1} \end{aligned}$

$\begin{aligned} Q_\pi(s_t,a_t)&=E[U_t|s_t,a_t] \\&=E[R_t+\gamma·U_{t+1}|s_t,a_t] \\&=E[R_t|s_t,a_t]+\gamma·E[U_{t+1}|s_t,a_t] \\&=E[R_t|s_t,a_t]+\gamma·E[Q_\pi(S_{t+1},A_{t+1})|s_t,a_t] \end{aligned}$

Identity: $Q_\pi(s_t,a_t)=E[R_t+\gamma·Q_\pi(S_{t+1},A_{t+1})]$ , for all $\pi$ .

蒙特卡洛近似: $Q_\pi(s_t,a_t)\approx r_t+\gamma Q_\pi(s_{t+1},a_{t+1})=y_t$

$y_t$ 为TD Target

1.1.Tabular Version

适用于规模较小、表格较小的问题，由状态和动作组成 $Q$ 表，使用Sarsa算法更新表格。

观测得到transition $s_t,a_t,r_t,s_{t+1}$
根据策略 $\pi(·|S_{t+1})$ 采样得到动作 $a_{t+1}$
TD target: $y_t=r_t+\gamma·Q_\pi(s_{t+1},a_{t+1})$ ，其中 $Q_\pi(s_{t+1},a_{t+1})$ 查表得到
TD error: $\delta_t=Q_\pi(s_t,a_t)-y_t$
更新 $Q$ 表: $Q_\pi(s_t,a_t)\leftarrow Q_\pi(s_t,a_t)-\alpha·\delta_t$

1.2.Neural Network Version

使用神经网络value network $q (s, a; w)$ 近似计算 $Q_\pi(s,a)$

TD target: $y_t=r_t+\gamma·q(s_{t+1},a_{t+1};w)$
TD error: $\delta_t=q(s_t,a_t;w)-y_t$
Loss: $\delta_t^2/2$
Gradient: $\frac{\partial \delta^2_t/2}{\partial w}=\delta_t·\frac{\partial q(s_t,a_t;w)}{\partial w}$
Gradient descent: $w\leftarrow w-\alpha·\delta·\frac{\partial q(s_t,a_t;w)}{\partial w}$

2.Q-Learning

比较Q-Learning和Sarsa：

	Sarse	Q-Learning
目标函数	$Q_\pi(s,a)$	$Q^*(s,a)$
TD target	$y_t=r_t+\gamma·Q_\pi(s_{t+1},a_{t+1})$	$y_t=r_t+\gamma·\max_a Q^*(s_{t+1},a)$
参数更新	value network; critic	DQN

2.0.TD Target

在1.0中已经计算，对于策略 $\pi$ ：
$Q_\pi(s_t,a_t)=E[R_t+\gamma·Q_\pi(S_{t+1},A_{t+1})]$
对于最优策略optimal policy $\pi^*$ ：
$Q^*(s_t,a_t)=E[R_t+\gamma·Q^*(S_{t+1},A_{t+1})]$
取行动 $A_{t+1}$ 为 $A_{t+1}=\arg\max_a Q^*(S_{t+1},a)$ ，

则 $Q^*(S_{t+1},A_{t+1})=\max_a Q^*(S_t+1,a)$
$Q^*(s_t,a_t)=E[R_t+\gamma·\max_a Q^*(S_{t+1},a)]$
使用蒙特卡洛近似，得到TD target $y_t$ ：
$Q^*(s_t,a_t)\approx r_t+\gamma·\max_a Q^*(s_{t+1},a)=y_t$

2.1.Tabular Version

适用于规模较小、表格较小的问题，由状态和动作组成 $Q^*$ 表，使用Q-Learning算法更新表格。

观测得到transition $s_t,a_t,r_t,s_{t+1}$
TD target: $y_t=r_t+\gamma·\max_a Q^*(s_{t+1},a)$ ，在 $s_{t+1}$ 对应的行动中，找到表格值最大的一项
TD error: $\delta_t=Q^*(s_t,a_t)-y_t$
更新 $Q$ 表: $Q^*(s_t,a_t)\leftarrow Q^*(s_t,a_t)-\alpha·\delta_t$

2.2.DQN Version

使用DQN网络 $Q (s, a; w)$ 近似计算 $Q^*(s,a)$ ，控制agent执行行动 $a_t=\arg\max_a Q(s_t,a;w)$

可使用Q-Learning算法训练DQN：

观测得到transition $s_t,a_t,r_t,s_{t+1}$
TD target: $y_t=r_t+\gamma·\max_a Q(s_{t+1},a;w)$
TD error: $\delta_t=Q(s_t,a_t;w)-y_t$
Loss: $\delta_t^2/2$
Gradient: $\frac{\partial \delta^2_t/2}{\partial w}=\delta_t·\frac{\partial Q(s_t,a_t;w)}{\partial w}$
Gradient descent: $w\leftarrow w-\alpha·\delta·\frac{\partial Q(s_t,a_t;w)}{\partial w}$

3.Multi-Step TD Target

3.0

之前的算法中，只使用了一步的Reward进行训练，如果使用多步的Reward，可以得到更好的效果。

3.1.Multi-Step Return

$U_t=R_t+\gamma·U_{t+1}$

对上式进行递归，得到：
$\begin{aligned} U_t&=R_t+\gamma·(R_{t+1}+\gamma·U_{t+2}) \\&=R_t+\gamma·R_{t+1}+\gamma^2·U_{t+2} \end{aligned}$
继续递归：
$U_t=\sum_{i=0}^{m-1}\gamma^i·R_{t+i}+\gamma^m·U_{t+m}$

3.2.Multi-Step TD Target

m-step TD target for Sarsa:
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·Q_\pi(s_{t+m},a_{t+m})$
m-step TD target for Q-Learning
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·\max_aQ^*(s_{t+m},a)$
s_{t+m},a_{t+m})
$$
m-step TD target for Q-Learning
$y_t=\sum_{i=0}^{m-1}\gamma^i·r_{t+i}+\gamma^m·\max_aQ^*(s_{t+m},a)$