重要性采样定理
重要性采样可以改变原来的旧分布,用新的分布去采集样本,然后求出目标期望,上述证明显示两者理论上是等价的,但是等价他有个前提条件:就是2个分布不能相差太大。换句话说,如果2个分布相差过大,那么两者就不会相等,这就是IS的缺陷。
IS确实可以让2个分布产生一个期望,但是期望相等并不代表方差相等。如上图红框所示,如果2者相差过大,就会导致双方的方差Varience过大。而当采样数据不足够时,方差相差太大会导致两者的样本均值相差很大!
重要性采样的用处在于对于原分布下不太好求解的情况下,把问题转移到在另一个分布下求解期望。
交叉熵方法
步骤:
- 使用当前的模型和环境产生N次片段
- 计算每个片段的总奖励,并确定奖励边界。通常使用总奖励的百分比来确定。
- 将奖励在边界以下的片段丢掉
- 用观察值作为输入,智能体产生的动作作为目标输出,训练剩余的片段
- 从第一步开始重复,直到得到满意的结果
思想:
用
π
i
+
1
(
a
∣
s
)
\pi_{i+1}(a|s)
πi+1(a∣s)来近似
π
i
(
a
∣
s
)
\pi_i(a|s)
πi(a∣s),选择每次交叉熵最小的进行迭代,我们不知道
π
i
(
a
∣
s
)
\pi_i(a|s)
πi(a∣s)的具体形式,但知道它是是累积奖励最大的策略,所以每次选择奖励大的episode进行更新。
参考:
- https://blog.csdn.net/MR_kdcon/article/details/112134708
2.《 深度学习强化实践》