Importance Sample的定义
从李宏毅老师的PPO的讲解中我们可以知道,我们本来要计算p分布下f(x)的期望,但是现在我们不从p中采样,我们从q中采样x,来计算f(x)的期望。在上图中我们可以看到经过变形,f(x)乘上了一个p(x)/q(x),这个p(x)/q(x)相当于一个修正p,q分布差异的权重因子。
当然p和q也不能相差太大,虽然两者均值一样,但是当p(x)/q(x)太大时,方差就不一样了,如果采样不够多的话,也会导致两者均值不一样。
我们是因为off-policy,而引出的importance sample 。在off-policy中,我们采样时使用的策略和更新的策略不是同一个,这样我们就可以拿采样的数据进行多次更新,从而提高样本利用率。这个过程我们需要使用importance sample来保证两个策略不要相差太大。(相差太大,就不能用采样的数据来更新另一个策略了,越更新越差)