强化学习之无模型方法一：蒙特卡洛

最新推荐文章于 2024-05-17 01:25:07 发布

静_流

最新推荐文章于 2024-05-17 01:25:07 发布

阅读量6.7k

点赞数 6

分类专栏：【算法】强化学习

本文链接：https://blog.csdn.net/hiwallace/article/details/81284799

版权

无模型方法（model-free）

无模型方法是学习方法的一种，MDPs中如果P,R未知，则用无模型方法。该方法需要智能体与环境进行交互（交互的方式多样），一般采用样本备份，需要结合充分的探索。
由于未知环境模型，则无法预知自己的后继状态和奖励值，通过与环境进行交互然后观察环境返回的值。本质上从概率分布 $P_{ss^{'}}^a$ 和 $R_s^a$ 中进行采样。对于随机变量 $S^{'}$ 和R的采样，需要实现完整的轨迹还需要确定A，采样足够充分时，可以使用样本分布良好刻画总体分布

无模型学习 vs 动态规划

无模型学习	动态规划
未知环境模型	已知环境模型
需要与环境进行交互，有交互成本	不需要直接交互，直接利用环境模型推导
样本备份	全宽备份
异步备份	同步和异步
需要充分探索	无探索
两个策略（行为策略和目标策略）	一个策略

行为策略 vs 目标策略

行为策略是智能体与环境交互的策略，目标策略是我们要学习的策略。

在策略（on-policy）学习	离策略（off-policy）学习
行为策略和目标策略是一个策略	行为策略和目标策略不是同一个策略
直接使用样本统计属性去估计总体	一般行为策略 $\mu$ 选用随机性策略，目标策略 $\pi$ 选用确定性策略，需要结合重要性采样才能使用样本估计总体
更简单，收敛性更好	方差更大，收敛性更差
数据利用性更差（只有智能体当前交互的样本能够被利用）	数据利用性更好（可以使用其他智能体交互的样本）
限定了学习过程中的策略是随机性策略	行为策略需要比目标策略更具备探索性。在每个状态下，目标策略的可行动作是行为策略可行动作的子集： $\pi(a\|s)>0 ==> \mu(a\|s)>0$

重要性采样

重要性采样是一种估计概率分布期望的技术，使用了来自其他概率分布的样本，主要用于无法直接采样原分布的情况，估计期望值是，需要加权概率分布的比值（称为重要性采样率）

例：估计全班身高，总体男女比例1：2，由于某些限制，只能按男女比例2:1去采样，如果不考虑采样的分布形式，直接平均得到的值就有问题，因此需要加权，加权比例是1:4去加权

E X ～ P [f (X)] = \sum P (X) f (X) = \sum Q (X) P ( X ) Q ( X ) f (X) = E X ～ Q [P ( X ) Q ( X ) f (X)]

$E_{X ～ P}　[f(X)]=\sum P(X)f(X)\\=\sum Q(X) \frac{P(X)}{Q(X)}f(X)\\=E_{X～Q}　[\frac{P(X)}{Q(X)}f(X)]$

考虑t时刻之后的动作状态轨迹 $\rho_t=A_t,S_{t+1},A_{t+1},...,S_T$ ，可以得到该轨迹出现的概率为：

P (ρ t) = \prod k = t T - 1 π (A t | S k) P (S k + 1 | S k, A k)

$P(\rho_t)=\prod_{k=t}^{T-1}\pi(A_t|S_k)P(S_{k+1}|S_k,A_k)$
相应的重要性采样率为

η T t = \prod T - 1 k = t π ( A t | S k ) P ( S k + 1 | S k , A k ) \prod T - 1 k = t

最低0.47元/天解锁文章

静_流

关注

6
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
强化学习之无模型方法一：蒙特卡洛

无模型方法（model-free）无模型方法是学习方法的一种，MDPs中如果P,R未知，则用无模型方法。该方法需要智能体与环境进行交互（交互的方式多样），一般采用样本备份，需要结合充分的探索。由于未知环境模型，则无法预知自己的后继状态和奖励值，通过与环境进行交互然后观察环境返回的值。本质上从概率分布Pass′Pss′aP_{ss^{'}}^a和RasRsaR_s^a中进行采样。对于随机变量...
复制链接

扫一扫

专栏目录