【强化学习笔记】4.3 无模型的强化学习方法-蒙特卡罗算法与重要性采样

最新推荐文章于 2024-08-06 18:19:49 发布

广告与算法

最新推荐文章于 2024-08-06 18:19:49 发布

阅读量2.6k

点赞数 4

分类专栏：强化学习强化学习笔记文章标签：强化学习

本文链接：https://blog.csdn.net/bigheadyushan/article/details/80623249

版权

强化学习同时被 2 个专栏收录

24 篇文章 4 订阅

订阅专栏

强化学习笔记

24 篇文章 12 订阅

订阅专栏

异策略与重要性采样

因为异策略中的行动策略和目标策略不一样，也就是说行动策略产生的数据分布与目标策略的数据分布存在偏差，即即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样，因此在使用数据进行目标策略评估的时候需要考虑该影响，常用的方法是重要性采样。(重要性采样的原理见文末图片)

重要性采样评估目标策略的值函数

在目标策略下，一次实验的概率为：
$Pr(S_t,A_t,S_{t+1},...S_T) = \prod _{k=t}^{T-1} \pi(A_k|S_k)p(S_{k+1}|S_t,A_t)$
在行动策略下，该实验出现的概率为：
$Pr(S_t,A_t,S_{t+1},...S_T) = \prod _{k=t}^{T-1} \mu(A_k|S_k)p(S_{k+1}|S_t,A_t)$
因为很难获得明确的目标策略 $\pi$ 的概率分布，因此使用一个替代分布进行估计，对应为行动策略分布 $\mu$ 。因此重要性权重为：
$\rho _t^T= \frac{\prod _{k=t}^{T-1} \pi(A_k|S_k)p(S_{k+1}|S_t,A_t)}{\prod _{k=t}^{T-1} \mu(A_k|S_k)p(S_{k+1}|S_t,A_t)}=\prod _{k=t}^{T-1} \frac{\pi(A_k|S_k)}{\mu(A_k|S_k)}$

${\color{red}{普通重要性采样的值函数估计为}}$ ：
$\frac {\sum_{t\in T(s)} \rho_{t}^{T(t)}G_t} {|T(s)|}$
将上式编程递推的方式：
令 $w_n=\rho_{n}^{T(n)},|T(s)|=n$ ,那么值函数为
$\frac {\sum_{k=1}^{n-1} w_n G_n} {n}$
递推公式很容易获得为：
$\frac {w_n G_n - V(n)} {n}$

${\color{red}{加权重要性采样的值函数为}}$ ：
$\frac {\sum_{t\in T(s)} \rho_{t}^{T(t)}G_t} {\sum_{t\in T(s)} \rho_{t}^{T(t)}}$
令 $w_n=\rho_{n}^{T(n)},c_n=\sum_{t\in T(s)} \rho_{t}^{T(t)}=c_{n-1} + w_n$ ,那么值函数为
$\frac {\sum_{k=1}^{n-1} w_n G_n} {c_n}$
递推公式很容易获得为：
$\frac {w_n} {c_n} (G_n - V(n))$