强化学习笔记_2_价值学习_Value-Based Reinforcement Learning_value-based reinforcement和策略强化学-CSDN博客

本文链接：https://blog.csdn.net/k_kun/article/details/128506079

0.Action-Value Function

$\begin{aligned} Q_\pi(s_t,a_t)&=E[U_t|S_t=s_t,A_t=a_t] \\Q^*(s_t,a_t)&=\max_\pi Q_\pi(s_t,a_t) \end{aligned}$

1.Deep Q-Network (DQN)

目标：最大化回报

策略：在已知 $Q^*(s,a)$ 的情况下，取动作 $a^*=\arg\max_aQ^*(s,a)$ ，即评价价值最大的动作

问题： $Q^*(s,a)$ 是未知的

解决方法：DQN，通过神经网络（neural network） $Q (s, a; w)$ 对 $Q^*(s,a)$ 进行近似，
网络输入：状态 $s$

网络输出：对不同动作的打分

$w$ ：网络参数

2.Apply DQN to Play Game

3.Temporal Difference (TD) Learning

算法理解：

预测值（predict）为 $q$ ，实际值（target）为 $y$

Loss: $L=\frac{1}{2}(q-y)^2$

Gradient: $\frac{\partial L}{\partial w}=\frac{\partial L}{\partial q}·\frac{\partial q}{\partial w}=(q-y)·\frac{\partial Q(w)}{\partial w}$

Gradient descent: $w_{t+1}=w_t-\alpha·\frac{\partial L}{\partial w}|_{w=w_t}$

以上算法需完成整个过程才能完成更新，而如果未完成整个过程，则根据已完成部分和预测值，得到一个新的预测值TD target为 $y$ ，将 $\delta=q-y$ 定义为TD error，则为TD算法。
TD Learning for DQN

将TD算法应用于DQN，在未完成整个序列的情况下进行学习。

在TD算法中，有如下的等式：
$T_{A\rightarrow C}\approx T_{A\rightarrow B}+T_{B\rightarrow C}$
其中 $T_{A\rightarrow C}$ 为需要估计的值， $T_{A\rightarrow B}$ 为已完成部分的实际值， $T_{B\rightarrow C}$ 为未完成部分的预测值。

而在DQN中有类似的等式：
$Q(s_t,a_t;w)=r_t+\gamma Q(s_{t+1},a_{t+1};w)$
在状态 $s_t$ 下，采取动作 $a_t$ ，得到状态 $a_{t+1}$ 和reward $r_t$ ，再根据 $Q$ 函数的当前预测，计算 $Q(s_{t+1},a_{t+1};w)$ ，可以得到当前状态的TD target。

其中， $a_{t+1}$ 是根据当前 $Q$ 函数取的最优动作，即
- TD target
$\begin{aligned} y_t&=r_t+\gamma·Q(s_{t+1},a_{t+1};w_t) \\&=r_t+\gamma·\max_a Q(s_{t+1},a;w_t) \end{aligned}$
- Loss: $L_t=\frac{1}{2}[Q(s_t,a_t;w)-y_t]^2$
- Gradient descent: $w_{t+1}=w_t-\alpha·\frac{L_t}{w}|_{w=w_t}$
- Gradient descent: $w_{t+1}=w_t-\alpha·\frac{L_t}{w}|_{w=w_t}$