强化学习之无模型方法一:蒙特卡洛

无模型方法(model-free)

无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。
由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布 Pass P s s ′ a Ras R s a 中进行采样。对于随机变量 S S ′ 和R的采样,需要实现完整的轨迹还需要确定A,采样足够充分时,可以使用样本分布良好刻画总体分布

无模型学习 vs 动态规划

无模型学习 动态规划
未知环境模型 已知环境模型
需要与环境进行交互,有交互成本 不需要直接交互,直接利用环境模型推导
样本备份 全宽备份
异步备份 同步和异步
需要充分探索 无探索
两个策略(行为策略和目标策略) 一个策略

行为策略 vs 目标策略

行为策略是智能体与环境交互的策略,目标策略是我们要学习的策略。

在策略(on-policy)学习 离策略(off-policy)学习
行为策略和目标策略是一个策略 行为策略和目标策略不是同一个策略
直接使用样本统计属性去估计总体 一般行为策略 μ μ 选用随机性策略,目标策略 π π 选用确定性策略,需要结合重要性采样才能使用样本估计总体
更简单,收敛性更好 方差更大,收敛性更差
数据利用性更差(只有智能体当前交互的样本能够被利用) 数据利用性更好(可以使用其他智能体交互的样本)
限定了学习过程中的策略是随机性策略 行为策略需要比目标策略更具备探索性。在每个状态下,目标策略的可行动作是行为策略可行动作的子集: π(a|s)>0==>μ(a|s)>0 π ( a | s ) > 0 ==> μ ( a | s ) > 0

重要性采样

重要性采样是一种估计概率分布期望的技术,使用了来自其他概率分布的样本,主要用于无法直接采样原分布的情况,估计期望值是,需要加权概率分布的比值(称为重要性采样率)

例:估计全班身高,总体男女比例1:2,由于某些限制,只能按男女比例2:1去采样,如果不考虑采样的分布形式,直接平均得到的值就有问题,因此需要加权,加权比例是1:4去加权

EXP [f(X)]=P(X)f(X)=Q(X)P(X)Q(X)f(X)=EXQ [P(X)Q(X)f(X)] E X ~ P   [ f ( X ) ] = ∑ P ( X ) f ( X ) = ∑ Q ( X ) P ( X ) Q ( X ) f ( X ) = E X ~ Q   [ P ( X ) Q ( X ) f ( X ) ]

考虑t时刻之后的动作状态轨迹 ρt=At,St+1,At+1,...,ST ρ t = A t , S t + 1 , A t + 1 , . . . , S T ,可以得到该轨迹出现的概率为:

P(ρt)=k=tT1π(At|Sk)P(Sk+1|Sk,Ak) P ( ρ t ) = ∏ k = t T − 1 π ( A t | S k ) P ( S k + 1 | S k , A k )

相应的重要性采样率为
ηTt=T1k=tπ(At|Sk)P(Sk+1|Sk,Ak)T1k=t
  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值