期望(Expectation)是一个非常重要的数学概念,尤其在概率论和统计学中。期望值也叫数学期望或均值,它是一个随机变量取值的加权平均,权重由该随机变量的概率分布决定。
通俗来说,期望是一个长期平均,它表示在重复实验中,随机变量的平均值。
1. 期望的定义
假设我们有一个离散型随机变量
X
X
X,它的取值为
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots, x_n
x1,x2,…,xn,并且每个取值的概率分别是
P
(
x
1
)
,
P
(
x
2
)
,
…
,
P
(
x
n
)
P(x_1), P(x_2), \dots, P(x_n)
P(x1),P(x2),…,P(xn),那么该随机变量的期望值
E
[
X
]
E[X]
E[X] 定义为:
E
[
X
]
=
∑
i
=
1
n
x
i
⋅
P
(
x
i
)
E[X] = \sum_{i=1}^{n} x_i \cdot P(x_i)
E[X]=i=1∑nxi⋅P(xi)
这意味着:期望值是所有可能取值的加权平均值,权重是每个取值发生的概率。
2. 期望的直观理解
假设你在投掷一枚硬币,硬币有两个面:正面和反面。我们用 X X X 来表示投掷的结果:
- X = 1 X = 1 X=1 代表正面(比如记为"赢")。
- X = 0 X = 0 X=0 代表反面(比如记为"输")。
假设硬币是公平的,那么:
- P ( X = 1 ) = 0.5 P(X = 1) = 0.5 P(X=1)=0.5(正面出现的概率是50%)。
- P ( X = 0 ) = 0.5 P(X = 0) = 0.5 P(X=0)=0.5(反面出现的概率也是50%)。
那么,硬币的期望值
E
[
X
]
E[X]
E[X] 是:
E
[
X
]
=
1
×
0.5
+
0
×
0.5
=
0.5
E[X] = 1 \times 0.5 + 0 \times 0.5 = 0.5
E[X]=1×0.5+0×0.5=0.5
这意味着:如果你投掷硬币很多次,平均每次投掷的结果是0.5。也就是:长期来看,正面和反面出现的比例将趋向于50%。
3. 期望的性质
- 线性性质:期望值有一个重要的性质,就是线性性。也就是说,如果你有两个随机变量
X
X
X 和
Y
Y
Y,那么:
E [ a X + b Y ] = a E [ X ] + b E [ Y ] E[aX + bY] = aE[X] + bE[Y] E[aX+bY]=aE[X]+bE[Y]
其中 a a a 和 b b b 是常数。 - 加权平均:期望值本质上是一个加权平均值,其中权重是对应概率。
4. 连续型随机变量的期望
对于连续型随机变量,期望的计算方法类似,但我们不再是对离散的概率进行加权平均,而是对概率密度函数进行积分。假设
X
X
X 是一个连续随机变量,其概率密度函数为
f
(
x
)
f(x)
f(x),那么期望值
E
[
X
]
E[X]
E[X] 计算如下:
E
[
X
]
=
∫
−
∞
∞
x
⋅
f
(
x
)
d
x
E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx
E[X]=∫−∞∞x⋅f(x)dx
这表示:对所有可能的取值
x
x
x,用概率密度函数
f
(
x
)
f(x)
f(x) 来加权计算期望。
5. 期望在EM算法中的作用
在EM算法中,期望非常关键。EM算法的目标是最大化似然函数,而由于我们有隐含变量(无法直接观测到的变量),因此EM算法通过计算隐变量的期望来间接地进行参数估计。
E步(期望步)就是在当前参数估计下,计算隐变量的期望,即计算每个隐变量的后验概率。然后,这些期望值(加权值)会在M步(最大化步)中用于更新模型的参数。
6. 具体例子:
假设你有一个高斯混合模型(GMM),模型有两个高斯分布( Z = B Z = B Z=B 或 Z = C Z = C Z=C),你的任务是估计每个数据点属于哪个高斯分布。你不能直接观测到每个数据点属于哪个分布(即隐变量),因此EM算法的E步会估计每个数据点属于每个分布的概率,这个概率就是隐变量的期望。
E步的期望计算:
假设你有一个数据点 x 1 x_1 x1,并且当前的模型参数估计为 θ ( t ) \theta^{(t)} θ(t)(比如均值和方差)。你需要计算数据点 x 1 x_1 x1 属于每个分布( Z = B Z = B Z=B 或 Z = C Z = C Z=C)的后验概率(责任度),这就相当于对隐变量的期望计算:
- P ( Z = B ∣ x 1 , θ ( t ) ) P(Z = B \mid x_1, \theta^{(t)}) P(Z=B∣x1,θ(t)):数据点 x 1 x_1 x1 属于分布B的概率。
- P ( Z = C ∣ x 1 , θ ( t ) ) P(Z = C \mid x_1, \theta^{(t)}) P(Z=C∣x1,θ(t)):数据点 x 1 x_1 x1 属于分布C的概率。
这些后验概率就是隐变量的期望,它们表示了在给定数据和当前参数下,隐变量取值的加权平均。
总结:
期望是统计学中描述随机变量取值“平均”的一个概念。在EM算法中,期望用来估算隐变量的值,帮助我们间接地估计模型参数。通过反复进行期望和最大化的步骤,EM算法能够有效地估计参数,尤其是在存在隐变量或缺失数据的情况下。