采样计算与期望

连续型随机变量的期望

p ( x ) p(x) p(x) 随 机 变 量 X 随机变量X X的概率密度函数。
E [ X ] = ∫ x p ( x ) d x (1) \tag{1} E[X] = \int xp(x)dx E[X]=xp(x)dx(1)

离散型随机变量的期望

X 的 分 布 律 为 p ( X = x i ) = p i X的分布律为p(X = x_{i}) = p_{i} Xp(X=xi)=pi
E [ X ] = ∑ i x i p i (2) \tag{2} E[X] = \sum_{i} x_{i}p_{i} E[X]=ixipi(2)

对于(1)式,如果我们从其定义域中选取若干个点 x 0 , x 1 , , , , x n x_{0}, x_{1}, ,,,x_{n} x0,x1,,,,xn,满足 x i < x i + 1 x_{i} < x_{i+1} xi<xi+1,且 x i + 1 − x i x_{i+1}-x_{i} xi+1xi的值足够小,那么我们可以用 ( x i + 1 − x i ) 来 近 似 代 替 d x (x_{i+1}-x_{i})来近似代替dx (xi+1xi)dx,即
E [ X ] ≈ ∑ i = 0 n − 1 x i p ( x i ) ( x i + 1 − x i ) (3) \tag{3}E[X] \approx \sum_{i=0}^{n-1}x_{i}p(x_{i})(x_{i+1}-x_{i}) E[X]i=0n1xip(xi)(xi+1xi)(3)

值得注意的是,在机器学习中,模型的方程中很多都是多变量的,当涉及边缘化时,也可以用期望来代替。在这里插入图片描述
比如上面面的式子是最大化 θ \theta θ,但是模型中还有其他变量 y 和 x y和x yx,所以要边缘化 x 和 y x和y xy使得最后只含有 θ \theta θ。边缘化 x 和 y x和y xy也就是对 x 和 y x和y xy求期望。
在这里插入图片描述

采样与期望

对于(1)式,在现实中有时候由于 p ( x ) p(x) p(x)太过复杂,积分积不出来,那么我们除了用(3)式的方法计算期望,还可以用采样的方法。
如果我们 p ( x ) p(x) p(x)中采样若干个点 x 0 , x 1 , , , , x m x_{0}, x_{1}, ,,,x_{m} x0,x1,,,,xm ,那么有
E [ X ] ≈ 1 m + 1 ∑ i = 0 m x i , x i ∼ p ( x ) (4) \tag{4}E [X] \approx {1 \over m+1}\sum_{i=0}^{m}x_{i},x_{i} \sim p(x) E[X]m+11i=0mxixip(x)(4)
比较(3)和(4)式,可以发现由于(3)式中样本点是从定义域中选取的,选取某一个点 x i x_{i} xi的时候并没有考虑 x i x_{i} xi的概率,所以在(3)式中计算时要加上概率的计算。而在(4)式中,采样是依据概率分布来采样的,概率大的 x i x_{i} xi被采样的概率也高,采样的次数也就越多。所以已经考虑了 p ( x i ) p(x_{i}) p(xi),就不用再乘 p ( x i ) p(x_{i}) p(xi)了。

更一般的,可以写出
E x ∼ p ( x ) [ f ( x ) ] = ∫ f ( x ) p ( x ) d x ≈ 1 n ∑ i = 0 n f ( x i ) , x i ∼ p ( x ) (5) \tag{5}E_{x\sim p(x)}[f(x)] = \int f(x)p(x)dx \approx {1 \over n} \sum_{i=0}^{n}f(x_{i}),x_{i} \sim p(x) Exp(x)[f(x)]=f(x)p(x)dxn1i=0nf(xi)xip(x)(5)

(5)式估计期望的方法也叫做蒙特卡洛估计
我们其实可以发现KL散度也可以写成期望的形式。
K L ( p ( x ) ∣ ∣ q ( x ) ) = ∫ p ( x ) l n p ( x ) q ( x ) d x = E x ∼ p ( x ) [ l n p ( x ) q ( x ) ] = 1 n ∑ i = 1 n l n p ( x i ) q ( x i ) , x i ∼ p ( x ) \begin{aligned} KL(p(x)||q(x)) = & \int p(x)ln{p(x) \over q(x)}dx \\ = & E_{x \sim p(x)}[ln{p(x) \over q(x)}] \\ = & {1 \over n}\sum_{i=1}^n ln{p(x_{i}) \over q(x_{i})},x_{i} \sim p(x) \end{aligned} KL(p(x)q(x))===p(x)lnq(x)p(x)dxExp(x)[lnq(x)p(x)]n1i=1nlnq(xi)p(xi)xip(x)

参考:变分自编码器(二):从贝叶斯观点出发

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值