什么是期望

期望(Expectation)是一个非常重要的数学概念,尤其在概率论和统计学中。期望值也叫数学期望均值,它是一个随机变量取值的加权平均,权重由该随机变量的概率分布决定。

通俗来说,期望是一个长期平均,它表示在重复实验中,随机变量的平均值。

1. 期望的定义

假设我们有一个离散型随机变量 X X X,它的取值为 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,并且每个取值的概率分别是 P ( x 1 ) , P ( x 2 ) , … , P ( x n ) P(x_1), P(x_2), \dots, P(x_n) P(x1),P(x2),,P(xn),那么该随机变量的期望值 E [ X ] E[X] E[X] 定义为:
E [ X ] = ∑ i = 1 n x i ⋅ P ( x i ) E[X] = \sum_{i=1}^{n} x_i \cdot P(x_i) E[X]=i=1nxiP(xi)
这意味着:期望值是所有可能取值的加权平均值,权重是每个取值发生的概率

2. 期望的直观理解

假设你在投掷一枚硬币,硬币有两个面:正面和反面。我们用 X X X 来表示投掷的结果:

  • X = 1 X = 1 X=1 代表正面(比如记为"赢")。
  • X = 0 X = 0 X=0 代表反面(比如记为"输")。

假设硬币是公平的,那么:

  • P ( X = 1 ) = 0.5 P(X = 1) = 0.5 P(X=1)=0.5(正面出现的概率是50%)。
  • P ( X = 0 ) = 0.5 P(X = 0) = 0.5 P(X=0)=0.5(反面出现的概率也是50%)。

那么,硬币的期望值 E [ X ] E[X] E[X] 是:
E [ X ] = 1 × 0.5 + 0 × 0.5 = 0.5 E[X] = 1 \times 0.5 + 0 \times 0.5 = 0.5 E[X]=1×0.5+0×0.5=0.5
这意味着:如果你投掷硬币很多次,平均每次投掷的结果是0.5。也就是:长期来看,正面和反面出现的比例将趋向于50%。

3. 期望的性质

  • 线性性质:期望值有一个重要的性质,就是线性性。也就是说,如果你有两个随机变量 X X X Y Y Y,那么:
    E [ a X + b Y ] = a E [ X ] + b E [ Y ] E[aX + bY] = aE[X] + bE[Y] E[aX+bY]=aE[X]+bE[Y]
    其中 a a a b b b 是常数。
  • 加权平均:期望值本质上是一个加权平均值,其中权重是对应概率。

4. 连续型随机变量的期望

对于连续型随机变量,期望的计算方法类似,但我们不再是对离散的概率进行加权平均,而是对概率密度函数进行积分。假设 X X X 是一个连续随机变量,其概率密度函数为 f ( x ) f(x) f(x),那么期望值 E [ X ] E[X] E[X] 计算如下:
E [ X ] = ∫ − ∞ ∞ x ⋅ f ( x )   d x E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx E[X]=xf(x)dx
这表示:对所有可能的取值 x x x,用概率密度函数 f ( x ) f(x) f(x) 来加权计算期望。

5. 期望在EM算法中的作用

在EM算法中,期望非常关键。EM算法的目标是最大化似然函数,而由于我们有隐含变量(无法直接观测到的变量),因此EM算法通过计算隐变量的期望来间接地进行参数估计。

E步(期望步)就是在当前参数估计下,计算隐变量的期望,即计算每个隐变量的后验概率。然后,这些期望值(加权值)会在M步(最大化步)中用于更新模型的参数。

6. 具体例子:

假设你有一个高斯混合模型(GMM),模型有两个高斯分布( Z = B Z = B Z=B Z = C Z = C Z=C),你的任务是估计每个数据点属于哪个高斯分布。你不能直接观测到每个数据点属于哪个分布(即隐变量),因此EM算法的E步会估计每个数据点属于每个分布的概率,这个概率就是隐变量的期望

E步的期望计算:

假设你有一个数据点 x 1 x_1 x1,并且当前的模型参数估计为 θ ( t ) \theta^{(t)} θ(t)(比如均值和方差)。你需要计算数据点 x 1 x_1 x1 属于每个分布( Z = B Z = B Z=B Z = C Z = C Z=C)的后验概率(责任度),这就相当于对隐变量的期望计算:

  • P ( Z = B ∣ x 1 , θ ( t ) ) P(Z = B \mid x_1, \theta^{(t)}) P(Z=Bx1,θ(t)):数据点 x 1 x_1 x1 属于分布B的概率。
  • P ( Z = C ∣ x 1 , θ ( t ) ) P(Z = C \mid x_1, \theta^{(t)}) P(Z=Cx1,θ(t)):数据点 x 1 x_1 x1 属于分布C的概率。

这些后验概率就是隐变量的期望,它们表示了在给定数据和当前参数下,隐变量取值的加权平均。

总结:

期望是统计学中描述随机变量取值“平均”的一个概念。在EM算法中,期望用来估算隐变量的值,帮助我们间接地估计模型参数。通过反复进行期望和最大化的步骤,EM算法能够有效地估计参数,尤其是在存在隐变量或缺失数据的情况下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬彬侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值