动态规划求解强化学习任务——策略评估[解析解]

静静的喝酒

已于 2023-10-13 16:59:19 修改

阅读量1.2k

点赞数 3

分类专栏：强化学习文章标签：动态规划算法概率论

于 2022-05-24 16:16:33 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/124930861

版权

动态规划求解强化学习任务——策略评估[解析解]

希望感兴趣的小伙伴能够看完，虽然使用解析方式求解最优价值函数是很原始的，文章最后也点出时间复杂度极高的问题，但求解析解的推导过程有助于我们对马尔可夫决策过程的理解更加深刻。另外，非常感谢白板大神的视频！！

解析方式求解最优价值函数逻辑梳理

策略评估的基本目标是：在 $\mid s,a)$ 已知的条件下，给定策略 $\pi$ ，对于 $\forall s \in \mathcal S$ ,求出价值函数( $V_\pi(s),q_\pi(s,a)$ )。
换句话说 $\to$ 将状态集合 $\mathcal S$ 中的所有状态对应的价值函数 全部求出来。
设状态集合 $\mathcal S$ 中包含 $|\mathcal S|$ 个状态， $V_\pi(s)$ 可以表示成如下的向量形式(向量形状 $\to |\mathcal S| \times 1$ )：
$V_\pi(s) = \begin{pmatrix} V_\pi(s_1) \\ V_\pi(s_2) \\ V_\pi(s_3)\\ ...\\ V_\pi(s_{|\mathcal S|}) \end{pmatrix}$
向量中的每个元素均表示某一个状态的价值函数。

回顾贝尔曼期望方程(Markov Decision Process, MDP)：
这里使用 $s_k$ 区别一下表示价值函数向量的 $V_\pi(s)$ 中的 $s$ 。
$\begin{aligned} V_\pi(s_k) & = E_\pi[G_t \mid S_t=s_k] \\ & = E_\pi[R_{t+1} + \gamma V_\pi(S_{t+1})] \\ & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)[r + \gamma V_\pi(s')] \\ \end{aligned}$

由于 $V_\pi(s)$ 本身是向量， $s_k,s'$ 均是状态集合 $\mathcal S$ 中的元素，同样地， $V_\pi(s_k),V_\pi(s')$ 也都是向量 $V_\pi(s)$ 中的元素。如果将 $V_\pi(s_k),V_\pi(s')$ 看作未知量 $M, M^{'}$ ，将贝尔曼期望方程展开成如下形式：
$\begin{aligned} M & = \sum_{a \in \mathcal A}\pi(a \mid s) \sum_{s',r}p(s',r \mid s,a)[r + \gamma M'] \\ & = \sum_{a \in \mathcal A}\sum_{s',r}\pi(a \mid s)p(s',r \mid s,a)[r + \gamma M'] \\ & = \sum_{a \in \mathcal A}\sum_{s'}\sum_{r}\{r[\pi(a \mid s)p(s',r \mid s,a)] + \gamma M'[\pi(a \mid s)p(s',r \mid s,a)]\} \end{aligned}$

观察上述展开式：
等式右侧是关于 $a, s^{'}, r$ 的三重累加(积分)形式，并且奖励(Reward) $r$ , $\gamma$ , $\mid s,a)$ 都是已知条件，策略 $\pi$ 是给定的， $M$ 和 $M^{'}$ 之间仅是纯粹的线性关系(一次函数关系)。
一个包含 $|\mathcal S|$ 个元素的 $V_\pi(s)$ 向量 $\to$ 需要对应 $|\mathcal S|$ 个方程的 $|\mathcal S|$ 元方程组对其进行求解 $\to$ 使用矩阵运算对方程组的解进行表示。

准备工作

在明确了最终目标 $\to$ 对 $|\mathcal S|$ 元方程组进行求解，需要做一些准备工作：

奖赏(Reward)函数

奖赏(Reward)函数是马尔可夫决策过程中的知识点，在推导贝尔曼最优方程时，我们使用回报(Return)作为评价标准而不是奖赏函数。
设定 $\mathcal R$ 为奖励集合， $r (s, a)$ 表示智能体在 $t$ 时刻状态 $S_t=s$ 下执行动作 $a$ 时得到的 期望奖赏(expected reward)。其公式表达如下：
$\begin{aligned} r(s,a) & = \mathbb E[R_{t+1} \mid S_t=s,A_t=a] \\ & = \sum_rr\sum_{s'} p(s',r \mid s,a) \end{aligned}$
继续观察，我们发现 $s^{'}$ 只存在于条件概率中，根据 概率密度积分等于1的规则(以 离散型随机变量为例)：
$\sum_{s'}p(s') = 1$
我们可以继续对上式进行化简：