强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）

最新推荐文章于 2024-02-15 19:31:16 发布

Starry丶

最新推荐文章于 2024-02-15 19:31:16 发布

阅读量1.6k

点赞数 3

分类专栏：控制理论

本文链接：https://blog.csdn.net/Starry__/article/details/113499992

版权

控制理论专栏收录该内容

11 篇文章 8 订阅

订阅专栏

1. TD预测

TD是另一种对最优策略的学习方法，本节讲述TD预测，即使用TD求解策略 $\pi$ 的值函数 $v_{\pi}(s)$ 。

TD预测被称为 DP 和 MC 的结合体，DP是期望更新+自举bootstrap，MC是采样更新 + 样本估计。而TD则是采样更新 + 自举，即值函数 $V(S_t)$ 更新基于采样得到的 $V(S_{t+i})$ 的结果。

如果 $i = 1$ ，就为TD(0)单步TD算法，否则就为多步TD

当然动态特性 $p (s^{'}, a ∣ s, a)$ 对于TD也是未知的。

1.1. TD(0)算法

根据采样更新与自举的思想，TD(0)的状态值函数预测式为

$V(S_t) = V(S_t) + \alpha[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)] \tag{1}$

先给出一些定义：
TD目标：指 $R_{t+1} + \gamma V(S_{t+1})$
TD误差：指 $R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$
步长\学习率：指 $\alpha$

如何理解上述定义呢？

结合图一看就明白了。对于状态 $s$ ，所有包含 $s$ 的episode均会使值函数的估计值 $V (s)$ 朝着TD目标走长度为 $\alpha$ 倍TD误差的一步，而获得新的 $V (s)$ 。就是经过这样不断地走，最终会接近 $v_{\pi}(s)$ 。
在这里插入图片描述

有没有想到梯度下降中的步长的概念？意思其实是一样的，同样的可以使用非恒定学习率，例如 $\frac{1}{s的更新次数}$ ，即越接近 $v_{\pi}(s)$ 学习率越小，这样 $V (s)$ 就变成了采样取平均的方法。取平均的确会收敛概率为1，但这样收敛较慢，且对于非平稳问题则不太合适。

由此特征可以看到DP和MC的影子，深刻理解TD算法的思想：

采样更新：可以看到 $(1)$ 中更新的状态是与 $t$ 有关的，即 $V(S_t)$ 的更新是基于样本采样得出的单个后继节点的值函数，即 $S_{t+1}$ 。
只不过MC中用的是当前样本算得的 $G_t$ ，TD中直接用的估计结果V。
自举：式子中状态的值函数 $V(S_t)$ 需要用到已存在的其他状态的值函数 $V(S_{t+1})$

所以式子 $(1)$ 中的 $R_{t+1} + \gamma V(S_{t+1})$ 到底叫不叫样本？叫吧，可这个值涉及到多次迭代的估计值。不叫吧，可这又是采样得来的，而且 $V(S_t)$ 的更新只看样本给出的下一个状态 $V(S_{t+1})$ 。
$\quad$
因此TD的核心思想是对于状态 $s$ ，步步采样，用估计值函数 $V (s^{'})$ 更新（而非样本回报 $G_t$ ）

上代码

V TDEvaluation(S,A,R,policy,alpha,gamma,maxEpisodeNum)
{
	V(S) = 0;
	episode = 1;
	for episode = 1:maxEpisodeNum
	{
		s = random(S);
		while(s != terminalState)
		{
			a = policy(s);
			s' = updateState(s,a);
			r = reward(s,a,s');
			V(s) = V(s) + alpha*( r + gamma*V(s') - V(s) );
			s = s'; 
		}
	}

	return V(S);
}

2. 同轨TD控制：Sarsa

这里讨论经典的同轨的TD控制方法Sarsa。既然是同轨法，即行动策略和目标策略相同，就必须考虑最优策略是确定性策略，即选择行动状态函数最大的动作时，这样的行动策略会带来的样本探索受限的问题（动态规划与蒙特卡洛方法中如是说）

2.1. $\epsilon$ -软性策略 ( $\epsilon$ -greedy)

思路是将确定性策略改成近似确定性，即以较大概率 $1-\epsilon$ 选择 $\max_aq_{\pi}(s,a)$ ，以较小概率 $\epsilon$ 选择其他行为。因此要满足 $1-\epsilon >> \epsilon$ 。

该策略如下：

Action policy(state,Q,epsilon)
{
	if( rand(0,1) < epsilon )
		return randomActions(state);
	else
		return argmax(Action,Q(state,:));
}

这样的软性策略，实际上对于新样本的采集（行动策略）会以很小的概率 $\epsilon$ 进行，因此Sarsa算法的特点就是点的探索会比较保守。

2.2. 算法流程

与公式 $(1)$ 类似，得到 $Q (s, a)$ 的更新公式：

$\alpha [ R(s,a) + \gamma Q(s',a') -Q(s,a)]$

注意到公式中出现了新状态的新动作 $a^{'}$ ，该新动作也是通过 $\epsilon$ -软性策略得到的。

整体代码如下，由于policy()是选取动作值函数Q(s,:)最大的动作，因此更新Q(s,a)就是控制。

policy Sarsa(S,A,R,epsilon,alpha,gamma,maxEpisodeNum)
{
	Q(S,A) = 0;
	episode = 1;
	for episode = 1:maxEpisodeNum
	{
		s = random(S);
		a = policy(s);
		while(s != terminalState)
		{
			s' = updateState(s,a);
			a' = policy(s',Q,epsilon);
			r = reward(s,a,s');
			Q(s,a) = Q(s,a) + alpha*( r + gamma*Q(s',a') - Q(s,a) );
			s = s'; 
			a = a';

		}
	}

	return policy(S,Q,epsilon);
}

3. 离轨TD控制：Q学习

3.1. 基本思想

Q-Learning算法是一种强化学习算法，通过智能体在环境中不断地训练进而得出一种模型，在该模型下实现智能体的决策。

Q-Learning 的思想是将智能体划分为多个可能的状态，每个状态之间通过某种行为相互转换（类似于状态机，也类似于离散系统控制中的系统状态x(k)和控制信号u(k)），在某种状态下采取不同的行为会得到不同的收益reward。

智能体的行为选择是基于获得的期望总体收益q最大进行的，即在状态 $s$ 下采取策略 $a$ 是因为这样才能使未来期望的总收益达到最大

因此需要记录所有状态的所有行为的期望总体收益，即 $Q (s, a)$ 。

（注意策略 $a$ 是基于未来所有收益的期望值，而非眼下的收益reward，一种动态规划思想）

Q-learning算法是一种针对特定场景下边决策边训练的强化学习算法。主要变量如下
状态 $s$ ，行为 $a$ ，收益 $r e w a r d (s, a)$ ，动作值函数Q-table $Q (s, a)$ ，

且系统状态 $s$ 会在 $a$ 的作用下发生转移，即 $s_j = a_{ij}(s_i)$

（注意reward和Q-table的输入是两个：状态和行为，而不只是状态。即使转移到相同的状态s，也可能有不同的收益， $reward(s_i ,a_{ij}) ≠ reward(s_k ,a_{kj})$ ）

在这里插入图片描述

Q-learning的训练的过程只是不断重复两步思维决策、Q-table更新

1.1.节中智能体的行为选择是基于获得的期望总体收益q最大进行的，这里的期望总体收益指的就是Q-table的值。

因此智能体的选择很简单，取Q最大值对应的 $a$ 即可，如果当前状态为 $s$ 则选择的行为 $a$ 应当满足

$a = a_m$ ,
where $a_m$ s.t. $Q(s, a_m) = max\{Q(s,a_1),Q(s,a_2),...,Q(s,a_n) \}$ 。

在这里插入图片描述

Q-table中 $Q (s, a)$ 表示状态 $s$ 下采取 $a$ 的得到的期望总体收益。

总体收益的含义是指，从状态 $s$ 采取动作 $a$ 到 $s^{'}$ 开始到算法结束的所有收益之和。但是从 $s^{'}$ 到算法终止策略有很多，因此这样的收益有很多，但有一个期望值。

期望的总体收益则是指从状态为 $s$ ，采取动作 $a$ 转移至 $s^{'}$ ，如果接下来都采取最佳策略的总体收益。

最佳策略则是如1.2.1所讲，期望总体收益q最大的那个选择策略。

因此根据动态规划思想， $Q (s, a)$ 就应该包含：状态 $s$ 采取动作 $a$ 的收益和 $s^{'}$ 的期望总体收益。

$\gamma E[Q(s')]$
$\quad\quad\quad= reward(s,a) + \gamma max_{a}\{Q(s',a)\}$

其中 $s^{'} = a (s)$ ， $E [Q (s^{'})]$ 表示 $s^{'}$ 状态的总体收益的期望值， $\gamma$ 表示折扣因子，用于确定延迟回报与当前回报的相对比例，越大表明延迟回报的重要程度越高。

在这里插入图片描述

迭代过程中 $Q (s, a)$ 是不断修正地过程，因此将 $Q (s, a)$ 变为过去的估计值和当前的现实值得加权和（Kalman滤波器既视感）

$\epsilon ( R(s,a) + \gamma max_{a}\{Q(s',a)\} )$

其中 $\epsilon$ 表示学习率。

3.2. 算法流程

对Q-learning算法进行一个流程总结，可能直接看伪代码更加清晰。

QLearning(initialState,endState,reward,N)
{
	episode = 1;
	s = initialState;
	while(episode < N)
	{
		a = chooseAction(s,Qfun);
		sNew = updateState(s,a);
		Qfun = updateQ(Qfun,reward,s,a,sNew);
		s = sNew;
		if(sNew == endState)
			{
				s = initialState;
				episode++;
			}
	}
}

动作选择、状态更新和 Qtable更新细节如下

action chooseAction(currentState,Qfun,prob)
{
	if(rand(0,1) > prob)
		return rand(all Actions within currentState);
	bestAction = first Action;
	for each Action in currentState:
		if(Qfun(currentState,Action) > Qfun(currentState,bestAction))
			bestAction = Action;
	return bestAction;
}

newState updateState(currentState,action)	//与系统动力学有关

Qfun updateQ(Qfun,reward,currentState,currentAction,newState,gamma,epsilon)
{
	s = currentState;
	a = currentAction;
	sNew = newState;
	Qfun(s,a) += epsilon * (reward(s,a) +gamma * max(Qfun(sNew,:)) );
	return Qfun(s,a);
}

参考资料

X. 动态规划法DP、蒙特卡洛法MC 和时序差分法TD的比较

X.1. 核心思想

X.2. 算法特点

Starry丶

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习（三）：时序差分学习（Temporal-Difference Learning, TD）

目录1. TD预测1.1. TD(0)算法三级目录1. TD预测TD是另一种对最优策略的学习方法，本节讲述TD预测，即使用TD求解策略π\piπ的值函数vπ(s)v_{\pi}(s)vπ(s)。TD预测被称为 DP 和 MC 的结合体，DP是期望更新+自举，MC是采样更新 + 样本估计。而TD则是采样更新 + 自举，即值函数V(St)V(S_t)V(St)更新基于采样得到的V(St+i)V(S_{t+i})V(St+i)的结果。如果i=1i=1i=1，就为TD(0)单步TD算法，否则就为多
复制链接

扫一扫