连续型随机变量的期望
p
(
x
)
p(x)
p(x)为
随
机
变
量
X
随机变量X
随机变量X的概率密度函数。
E
[
X
]
=
∫
x
p
(
x
)
d
x
(1)
\tag{1} E[X] = \int xp(x)dx
E[X]=∫xp(x)dx(1)
离散型随机变量的期望
X
的
分
布
律
为
p
(
X
=
x
i
)
=
p
i
X的分布律为p(X = x_{i}) = p_{i}
X的分布律为p(X=xi)=pi
E
[
X
]
=
∑
i
x
i
p
i
(2)
\tag{2} E[X] = \sum_{i} x_{i}p_{i}
E[X]=i∑xipi(2)
对于(1)式,如果我们从其定义域中选取若干个点
x
0
,
x
1
,
,
,
,
x
n
x_{0}, x_{1}, ,,,x_{n}
x0,x1,,,,xn,满足
x
i
<
x
i
+
1
x_{i} < x_{i+1}
xi<xi+1,且
x
i
+
1
−
x
i
x_{i+1}-x_{i}
xi+1−xi的值足够小,那么我们可以用
(
x
i
+
1
−
x
i
)
来
近
似
代
替
d
x
(x_{i+1}-x_{i})来近似代替dx
(xi+1−xi)来近似代替dx,即
E
[
X
]
≈
∑
i
=
0
n
−
1
x
i
p
(
x
i
)
(
x
i
+
1
−
x
i
)
(3)
\tag{3}E[X] \approx \sum_{i=0}^{n-1}x_{i}p(x_{i})(x_{i+1}-x_{i})
E[X]≈i=0∑n−1xip(xi)(xi+1−xi)(3)
值得注意的是,在机器学习中,模型的方程中很多都是多变量的,当涉及边缘化时,也可以用期望来代替。
比如上面面的式子是最大化
θ
\theta
θ,但是模型中还有其他变量
y
和
x
y和x
y和x,所以要边缘化
x
和
y
x和y
x和y使得最后只含有
θ
\theta
θ。边缘化
x
和
y
x和y
x和y也就是对
x
和
y
x和y
x和y求期望。
采样与期望
对于(1)式,在现实中有时候由于
p
(
x
)
p(x)
p(x)太过复杂,积分积不出来,那么我们除了用(3)式的方法计算期望,还可以用采样的方法。
如果我们 从
p
(
x
)
p(x)
p(x)中采样若干个点
x
0
,
x
1
,
,
,
,
x
m
x_{0}, x_{1}, ,,,x_{m}
x0,x1,,,,xm ,那么有
E
[
X
]
≈
1
m
+
1
∑
i
=
0
m
x
i
,
x
i
∼
p
(
x
)
(4)
\tag{4}E [X] \approx {1 \over m+1}\sum_{i=0}^{m}x_{i},x_{i} \sim p(x)
E[X]≈m+11i=0∑mxi,xi∼p(x)(4)
比较(3)和(4)式,可以发现由于(3)式中样本点是从定义域中选取的,选取某一个点
x
i
x_{i}
xi的时候并没有考虑
x
i
x_{i}
xi的概率,所以在(3)式中计算时要加上概率的计算。而在(4)式中,采样是依据概率分布来采样的,概率大的
x
i
x_{i}
xi被采样的概率也高,采样的次数也就越多。所以已经考虑了
p
(
x
i
)
p(x_{i})
p(xi),就不用再乘
p
(
x
i
)
p(x_{i})
p(xi)了。
更一般的,可以写出
E
x
∼
p
(
x
)
[
f
(
x
)
]
=
∫
f
(
x
)
p
(
x
)
d
x
≈
1
n
∑
i
=
0
n
f
(
x
i
)
,
x
i
∼
p
(
x
)
(5)
\tag{5}E_{x\sim p(x)}[f(x)] = \int f(x)p(x)dx \approx {1 \over n} \sum_{i=0}^{n}f(x_{i}),x_{i} \sim p(x)
Ex∼p(x)[f(x)]=∫f(x)p(x)dx≈n1i=0∑nf(xi),xi∼p(x)(5)
(5)式估计期望的方法也叫做蒙特卡洛估计。
我们其实可以发现KL散度也可以写成期望的形式。
K
L
(
p
(
x
)
∣
∣
q
(
x
)
)
=
∫
p
(
x
)
l
n
p
(
x
)
q
(
x
)
d
x
=
E
x
∼
p
(
x
)
[
l
n
p
(
x
)
q
(
x
)
]
=
1
n
∑
i
=
1
n
l
n
p
(
x
i
)
q
(
x
i
)
,
x
i
∼
p
(
x
)
\begin{aligned} KL(p(x)||q(x)) = & \int p(x)ln{p(x) \over q(x)}dx \\ = & E_{x \sim p(x)}[ln{p(x) \over q(x)}] \\ = & {1 \over n}\sum_{i=1}^n ln{p(x_{i}) \over q(x_{i})},x_{i} \sim p(x) \end{aligned}
KL(p(x)∣∣q(x))===∫p(x)lnq(x)p(x)dxEx∼p(x)[lnq(x)p(x)]n1i=1∑nlnq(xi)p(xi),xi∼p(x)