蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛控制

静静的喝酒

已于 2022-06-30 18:19:27 修改

阅读量798

点赞数 6

分类专栏：强化学习文章标签：算法机器学习人工智能概率论贪心算法

于 2022-06-30 18:07:31 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/125535230

版权

蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛控制

针对离轨策略行为策略 $\mid s)$ 与目标策略 $\pi(a \mid s)$ 无必然联系——使用重要性采样方法将两种策略的期望关联起来。这里以加权重要性采样 为例，近似求解状态价值函数 $V_\pi(s)$ 结果如下：
$\begin{aligned} V_\pi(s) & = \mathbb E_\pi[G_t \mid S_t = s] \\ & = \mathbb E_b[\rho_{t:T-1}G_t \mid S_t = s] \\ & \approx \frac{\sum_{i=1}^N \rho_{t:T-1}G_t^{(i)}}{\sum_{i=1}^N \rho_{t:T-1}} \end{aligned}$
其中：
$\rho_{t:T-1} = \prod_{k = t}^{T-1}\frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)}$

并且在基于离轨策略的蒙特卡洛策略评估中介绍了采样的具体流程：

基于给定的行为策略 $\mid s)$ 和目标策略 $\pi(a \mid s)$ ,(对应矩阵元素相除)求出 $\frac{\pi(a \mid s)}{b(a \mid s)}$ (也是矩阵形式);
针对某一完整情节(已达到终结状态 $S_T$ )，从 $t$ 时刻开始，根据各时刻的状态-动作二元组在 $\frac{\pi(a \mid s)}{b(a \mid s)}$ 矩阵中进行查找——求出各时刻的 $\frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)}$ 结果；
$\frac{\pi(A_t \mid S_t)}{b(A_t \mid S_t)},\frac{\pi(A_{t+1} \mid S_{t+1})}{b(A_{t+1} \mid S_{t+1})},...,\frac{\pi(A_{T-1} \mid S_{T-1})}{b(A_{T-1} \mid S_{T-1})}$
根据上一步骤的结果，求出重要度系数 $\rho_{t:T-1}$ ：
$\begin{aligned} \rho_{t:T-1} & = \prod_{k = t}^{T-1}\frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)} \\ & = \frac{\pi(A_t \mid S_t)}{b(A_t \mid S_t)}\cdot \frac{\pi(A_{t+1} \mid S_{t+1})}{b(A_{t+1} \mid S_{t+1})}\cdot...\cdot \frac{\pi(A_{T-1} \mid S_{T-1})}{b(A_{T-1} \mid S_{T-1})} \end{aligned}$