因为目前深度强化学习中大多数方法都是以Q-Learning为基础的,而Q-Learning又恰恰不需要重要性采样,所以导致很多人接触不到这个概念。
重要性采样的原始含义,然后讲述重要性采样在强化学习中扮演的角色,最后解释一下为什么Q-Learning、DQN、DDPG这些方法不需要重要性采样。
重要性采样是统计学中的一种采样方法,主要用在一些难以直接采样的数据分布上。我们首先看一个问题:
一言以蔽之:强化学习中不想通过p(x)来进行蒙特卡洛采样的时候,就用重要习惯采样。具体原因:
总结:更新目标的策略与更新所用的样本数据或估计所采用的策略保持一致就不用IS