采样计算与期望

最新推荐文章于 2023-01-29 16:02:13 发布

风吹草地现牛羊的马

最新推荐文章于 2023-01-29 16:02:13 发布

阅读量1.9k

点赞数 9

分类专栏：机器学习 NLP 变分贝叶斯系列

本文链接：https://blog.csdn.net/mch2869253130/article/details/102872599

版权

机器学习同时被 3 个专栏收录

97 篇文章 7 订阅

订阅专栏

NLP

42 篇文章 4 订阅

订阅专栏

变分贝叶斯系列

22 篇文章 13 订阅

订阅专栏

连续型随机变量的期望

$p (x)$ 为 $随机变量 X$ 的概率密度函数。
$\tag{1} E[X] = \int xp(x)dx$

离散型随机变量的期望

$X的分布律为p(X = x_{i}) = p_{i}$
$\tag{2} E[X] = \sum_{i} x_{i}p_{i}$

对于（1）式，如果我们从其定义域中选取若干个点 $x_{0}, x_{1}, ,,,x_{n}$ ，满足 $x_{i} < x_{i+1}$ ，且 $x_{i+1}-x_{i}$ 的值足够小，那么我们可以用 $x_{i+1}-x_{i})来近似代替dx$ ，即
$\tag{3}E[X] \approx \sum_{i=0}^{n-1}x_{i}p(x_{i})(x_{i+1}-x_{i})$

值得注意的是，在机器学习中，模型的方程中很多都是多变量的，当涉及边缘化时，也可以用期望来代替。在这里插入图片描述
比如上面面的式子是最大化 $\theta$ ，但是模型中还有其他变量 $y 和 x$ ，所以要边缘化 $x 和 y$ 使得最后只含有 $\theta$ 。边缘化 $x 和 y$ 也就是对 $x 和 y$ 求期望。

采样与期望

对于（1）式，在现实中有时候由于 $p (x)$ 太过复杂，积分积不出来，那么我们除了用（3）式的方法计算期望，还可以用采样的方法。
如果我们 从 $p (x)$ 中采样若干个点 $x_{0}, x_{1}, ,,,x_{m}$ ，那么有
$\tag{4}E [X] \approx {1 \over m+1}\sum_{i=0}^{m}x_{i}，x_{i} \sim p(x)$
比较（3）和（4）式，可以发现由于（3）式中样本点是从定义域中选取的，选取某一个点 $x_{i}$ 的时候并没有考虑 $x_{i}$ 的概率，所以在（3）式中计算时要加上概率的计算。而在（4）式中，采样是依据概率分布来采样的，概率大的 $x_{i}$ 被采样的概率也高，采样的次数也就越多。所以已经考虑了 $p(x_{i})$ ，就不用再乘 $p(x_{i})$ 了。

更一般的，可以写出
$\tag{5}E_{x\sim p(x)}[f(x)] = \int f(x)p(x)dx \approx {1 \over n} \sum_{i=0}^{n}f(x_{i})，x_{i} \sim p(x)$

（5）式估计期望的方法也叫做蒙特卡洛估计。
我们其实可以发现KL散度也可以写成期望的形式。
$\begin{aligned} KL(p(x)||q(x)) = & \int p(x)ln{p(x) \over q(x)}dx \\ = & E_{x \sim p(x)}[ln{p(x) \over q(x)}] \\ = & {1 \over n}\sum_{i=1}^n ln{p(x_{i}) \over q(x_{i})}，x_{i} \sim p(x) \end{aligned}$