无模型方法(model-free)
无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。
由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布 Pass′ P s s ′ a 和 Ras R s a 中进行采样。对于随机变量 S′ S ′ 和R的采样,需要实现完整的轨迹还需要确定A,采样足够充分时,可以使用样本分布良好刻画总体分布
无模型学习 vs 动态规划
无模型学习 | 动态规划 |
---|---|
未知环境模型 | 已知环境模型 |
需要与环境进行交互,有交互成本 | 不需要直接交互,直接利用环境模型推导 |
样本备份 | 全宽备份 |
异步备份 | 同步和异步 |
需要充分探索 | 无探索 |
两个策略(行为策略和目标策略) | 一个策略 |
行为策略 vs 目标策略
行为策略是智能体与环境交互的策略,目标策略是我们要学习的策略。
在策略(on-policy)学习 | 离策略(off-policy)学习 |
---|---|
行为策略和目标策略是一个策略 | 行为策略和目标策略不是同一个策略 |
直接使用样本统计属性去估计总体 | 一般行为策略 μ μ 选用随机性策略,目标策略 π π 选用确定性策略,需要结合重要性采样才能使用样本估计总体 |
更简单,收敛性更好 | 方差更大,收敛性更差 |
数据利用性更差(只有智能体当前交互的样本能够被利用) | 数据利用性更好(可以使用其他智能体交互的样本) |
限定了学习过程中的策略是随机性策略 | 行为策略需要比目标策略更具备探索性。在每个状态下,目标策略的可行动作是行为策略可行动作的子集: π(a|s)>0==>μ(a|s)>0 π ( a | s ) > 0 ==> μ ( a | s ) > 0 |
重要性采样
重要性采样是一种估计概率分布期望的技术,使用了来自其他概率分布的样本,主要用于无法直接采样原分布的情况,估计期望值是,需要加权概率分布的比值(称为重要性采样率)
例:估计全班身高,总体男女比例1:2,由于某些限制,只能按男女比例2:1去采样,如果不考虑采样的分布形式,直接平均得到的值就有问题,因此需要加权,加权比例是1:4去加权
EX~P [f(X)]=∑P(X)f(X)=∑Q(X)P(X)Q(X)f(X)=EX~Q [P(X)Q(X)f(X)] E X ~ P [ f ( X ) ] = ∑ P ( X ) f ( X ) = ∑ Q ( X ) P ( X ) Q ( X ) f ( X ) = E X ~ Q [ P ( X ) Q ( X ) f ( X ) ]
考虑t时刻之后的动作状态轨迹 ρt=At,St+1,At+1,...,ST ρ t = A t , S t + 1 , A t + 1 , . . . , S T ,可以得到该轨迹出现的概率为:
P(ρt)=∏k=tT−1π(At|Sk)P(Sk+1|Sk,Ak) P ( ρ t ) = ∏ k = t T − 1 π ( A t | S k ) P ( S k + 1 | S k , A k )
相应的重要性采样率为
ηTt=∏T−1k=tπ(At|Sk)P(Sk+1|Sk,Ak)∏T−1k=t