重要性采样

红烧code

于 2023-09-05 11:43:45 发布

阅读量457

点赞数

分类专栏：强化学习文章标签：强化学习 Off Policy

本文链接：https://blog.csdn.net/qq_51352578/article/details/132688821

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

重要性采样

前言

离散型随机变量 $X$ ，我们可以通过以下方法求取其期望：

直接计算法，需要知道概率分布：
$\mathbb{E}(X)=\sum_{x\in X}\left[p(x)\cdot x\right]$
采样计算，这时即使 $X$ 概率分布未知，依据大数定律，当采样次数够大时，仍然可以求取期望
$\mathbb{E}(X)=\frac{1}{n}\lim_{n\to +\infty}\sum_{i=0}^{n-1} x_i$

连续型随机变量 $X$

直接计算，需要 $f$ 表达式

$\mathbb{E}(X)=\int_x x\cdot f(x)dx$

抽样(蒙特卡洛积分估计)，这里不多做介绍

重要性采样

思想：如果已知随机变量 $X\sim p_0$ ，在 $p_0$ 下随机采样了一批数据 $\{x_i\}\sim p_0$ ，现在要求随机变量 $X\sim p_1$ 下的期望，则：
$\mathbb{E}_{X\sim p_1}[X]=\sum_x p_1(x)\cdot x=\sum_x p_0(x) \frac{p_1(x)}{p_0(x)}\cdot x=\mathbb{E}_{X\sim p_0}[f(X)]$
那么就有如下几个问题：

对于离散型随机变量，为什么 $p_1(x)$ 已知，不直接计算期望呢？
- 因为有时候我们已经根据 $p_0$ 采样了一些数据，再用 $p_1$ 重新采样计算一遍，会增加很多计算量。
- 因为有些时候不方便对 $p_1$ 采样
- 在强化学习中，我们根据一个策略采样，通过重要性采样可以求出另一个策略的期望，是一种On Policy向Off Policy转换的思想。
对于连续型随机变量，为什么 $p_1(x)$ 已知，不直接计算期望呢？

理论上不可能完全求出概率密度函数，所以无法从理论上计算期望，只能估计。

例如，如果我们通过神经网络来表示 $f$ ，那么对任意的输入 $x$ ，我们都可以求出 $f (x)$ ，但是这并不代表我们求出 $f$ 的函数表达式，更无法进一步求积分。我们只是能从数值上计算出 $f (x)$ ，神经网络本身就是一个黑盒。