均值和期望一样吗_理解期望、方差常见公式

这篇博客探讨了随机变量的期望和方差的概念及其性质。解释了期望的线性关系、样本均值的期望性质,以及期望的乘积关系。接着,介绍了方差作为衡量数据分散程度的指标,及其与期望的关系。最后,讨论了标准差和标准误差,指出样本均值的方差随着抽样次数增加而减小,体现了数据变异性的降低。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

433e825a158d666f2540eb26a971e7c9.png

先从基本概念讲起。

期望

对于一个随机变量

equation?tex=x ,它在取不同值时的概率用函数
equation?tex=f%28x%29 表示。比如色子的点数是一个随机变量,它为1的概率可以表达成
equation?tex=f%281%29%3D1%2F6 ,这与我们代数中的函数有点不同,代数中的函数是输入一个确切的数,而这里不是。我甚至可以用
equation?tex=f%28heads%29%3D0.5 来表示投硬币为正面的概率。不过,本文其余部分都要求概率函数的输入值是数字。 期望表示随机变量的中心位置。例如你投色子很多次,最后计算的点数平均值应该是所有点数的均值,因为出现每种点数的概率相同。如果概率不同,则需要用概率加权,于是我们的期望公式就是:

equation?tex=E%28x%29%3D%5Cmu%3D%5Csum+xf%28x%29

它表示把每一种可能的输出的值乘以其概率后求和。

性质1: 期望的线性关系

对于两个相互独立的随机变量

equation?tex=X%2C+Y,我们有:

equation?tex=E%28X%2BY%29%3DE%28X%29%2BE%28Y%29

这个就不做证明了,举一个直观例子说明:有2个色子各自投掷,两者的期望都是

equation?tex=E%3D%5Cdfrac%7B1%7D%7B6%7D%5Ctimes+%281%2B...%2B6%29%3D3.5,那么问两个色子之和的期望,显然是
equation?tex=3.5%2B3.5%3D7 。这是可以直观认知的。用
equation?tex=c_i 表示一个常数,它只是缩放每一个随机变量的值而已,进一步推广我们有:

equation?tex=E%5Cleft%5B%5Csum_%7Bi%3D1%7D%5Enc_iX_i%5Cright%5D%3D%5Csum_%7Bi%3D1%7D%5En%5Bc_iE%28X_i%29%5D

性质2: 样本均值的期望

假定有一个随机变量

equation?tex=X 的期望值和方差分别是
equation?tex=%5Cmu%2C+%5Csigma%5E2。现在对这个数据集进行随机抽样(有放回的抽样,因为我需要保证整体的分布是不变的),抽到的样本一个一个的数据用
equation?tex=X_1%2C+X_2+...+X_n 表示,现在试求
equation?tex=%5Cbar%7B+X+%7D 的期望。 根据样本均值的定义我们有:

equation?tex=E%28%5Cbar%7B+X+%7D+%29+%3D+E%28%5Cdfrac%7BX_1%2BX_2%2B...%2BX_n%7D%7Bn%7D%29

根据性质1的推论:

equation?tex=E%28%5Cbar%7B+X+%7D+%29+%3D+%5Cdfrac%7B1%7D%7Bn%7D%5BE%28X_1%29%2BE%28X_2%29%2B...%2BE%28X_n%29%5D 。由于每个
equation?tex=X_i 所属的分布和
equation?tex=X 是一样的。两者都是有放回地随机抽一个,因此:

equation?tex=E%28+%5Cbar%7B+X+%7D+%29+%3D+%5Cdfrac%7B1%7D%7Bn%7D%28%5Csum_%7Bi%3D1%7D%5EnE%28X%29%29%3D%5Cdfrac%7B1%7D%7Bn%7D%5Ccdot+n+%5Ccdot+%5Cmu%3D%5Cmu

我们的结论是:有放回的随机抽样的样本均值和总体均值的期望是一致的。

性质3: 期望的乘积关系

对于两个相互独立的随机变量

equation?tex=X%2C+Y ,我们有:

equation?tex=E%28XY%29%3DE%28X%29+%5Ccdot+E%28Y%29

这里给一个比较容易理解的说明,而不是证明: 首先,令

equation?tex=E%28X%29%3D%5Csum_%7Bi%3D1%7D%5EmXf%28X%29
equation?tex=E%28Y%29%3D%5Csum_%7Bj%3D1%7D%5EnYg%28Y%29 。于是有:

equation?tex=E%28X%29E%28Y%29%3D%5BX_1f%28X_1%29%2B...%2BX_mf%28X_m%29%5D%5BY_1g%28Y_1%29%2B...%2BY_ng%28Y_n%29%5D

仔细观察可以发现,根据乘法结合律我们得到了

equation?tex=X_i
equation?tex=Y_j 之间的所有组合,如
equation?tex=X_1Y_1f%28X_1%29g%28Y_1%29 等。 由于是两个独立随机变量,因此两者之积的概率满足
equation?tex=h%28XY%29+%3D+f%28X%29g%28Y%29 。我们得到了两者乘积的每一个可能值,以及它们对应的概率,全部加起来就是期望的定义。

方差

方差用于表示数据的分散程度。数据波动越大,方差就越大。定义如下:

equation?tex=Var%28x%29%3D%5Csigma%5E2%3D%5Csum%28x-%5Cmu%29%5E2f%28x%29

性质1

如果随机变量

equation?tex=x 变成
equation?tex=bx 会如何(
equation?tex=b 为常数)?显然它只是最后输出的值改变了倍数,但是每个输出的值的概率是一样的,即
equation?tex=f%28x%29%3Df%28bx%29 。但是,均值会放大
equation?tex=b 倍。于是根据方差定义得:

equation?tex=Var%28bx%29%3D%5Csum%28bx-b%5Cmu%29%5E2f%28x%29+%3Db%5E2Var%28x%29

性质2

如果随机变量

equation?tex=x 变成
equation?tex=%28x-E%28x%29%29%5E2 呢?其实也就是减去一个常数(总体的期望)再平方。想象色子的点数分别减3.5再平方,变成
equation?tex=%7B6.25%2C+2.25%2C+0.25%2C+0.25%2C+2.25%2C+6.25%7D ,然而每个新的点数出现的概率还是不变,所以
equation?tex=f%28x%29%3Df%28%28x-E%28x%29%29%5E2%29 。如果我们求这个新变量的期望:

equation?tex=E%28%28x-E%28x%29%29%5E2%29%3D%5Csum+%28x-E%28x%29%29%5E2f%28%28x-E%28x%29%29%5E2%29%3D%5Csum+%28x-E%28x%29%29%5E2f%28x%29

没错,这正是方差的公式。这个式子可以认为是方差的第二种定义,它和第一种定义是等价的。 令

equation?tex=%5Cmu%3DE%28x%29 ,再重复一遍公式:

equation?tex=Var%28x%29%3DE%28%28x-%5Cmu%29%5E2%29

性质3

equation?tex=Var%28x%29%3DE%28x%5E2%29-E%28x%29%5E2

证明之前的准备:

1.

equation?tex=E%28x%29 视为一个常数:
equation?tex=%5Csum+2E%28x%29xf%28x%29%3D2E%28x%29%5Csum+xf%28x%29%3D2E%28x%29%5E2

2. 概率之和恒为1:

equation?tex=%5Csum+f%28x%29%3D1

证明: 根据方差的性质2以及期望的一些性质有:

equation?tex=%5Cbegin%7Baligned%7D+Var%28x%29%26%3DE%28%28x-E%28x%29%29%5E2%29+%5C+%5C%5C+%26%3DE%28x%5E2-2xE%28x%29%2BE%28x%29%5E2%29%5C+%5C%5C+%26%3DE%28x%5E2%29-E%282xE%28x%29%29%2BE%28E%28x%29%5E2%29%5C+%5C%5C+%26%3DE%28x%5E2%29-%5Csum+2E%28x%29xf%28x%29%2B%5Csum+E%28x%29%5E2f%28x%29%5C+%5C%5C+%26%3DE%28x%5E2%29-2E%28x%29%5E2%2BE%28x%29%5E2%5Csum+f%28x%29%5C+%5C%5C+%26%3DE%28x%5E2%29-2E%28x%29%5E2%2BE%28x%29%5E2%5C+%5C%5C+%26%3DE%28x%5E2%29-E%28x%29%5E2%5C+%5Cend%7Baligned%7D+

这个可以视为方差的第三个定义式。记忆口诀:“期望平方内减外”。

性质4

如果

equation?tex=x%2C+y 是独立的随机变量,那么
equation?tex=Var%28x%2By%29%3DVar%28x%29%2BVar%28y%29

证明: 根据方差的性质3和期望的性质3有:

equation?tex=%5Cbegin%7Baligned%7D++Var%28x%2By%29%26%3DE%28%28x%2By%29%5E2%29-E%28x%2By%29%5E2+%5C+%5C%5C++%26%3DE%28x%5E2%2B2xy%2By%5E2%29-%28E%28x%29%2BE%28y%29%29%5E2+%5C+%5C%5C+%26%3DE%28x%5E2%29%2BE%282xy%29%2BE%28y%5E2%29-E%28x%29%5E2-E%28y%29%5E2-2E%28x%29E%28y%29+%5C+%5C%5C+%26%3DE%28x%5E2%29-E%28x%29%5E2%2BE%28y%5E2%29-E%28y%29%5E2%5C++%5C%5C%26%3DVar%28x%29+%2B+Var%28y%29+%5Cend%7Baligned%7D

推广得:如果

equation?tex=x_1%2C...%2Cx_n 是一组独立的随机变量,则
equation?tex=Var%28x_1%2B...%2Bx_n%29%3DVar%28x_1%29%2B...%2BVar%28x_n%29 。证明和上面基本类似,略。

性质5: 样本均值的方差

假定有一个随机变量

equation?tex=X 的期望值和方差分别是
equation?tex=%5Cmu%2C+%5Csigma%5E2 。现在对这个数据集进行随机抽样(有放回的抽样,因为我需要保证整体的分布是不变的),抽到的样本一个一个的数据用
equation?tex=X_1%2C+X_2+...+X_n表示,现在试求
equation?tex=%5Cbar%7B+X+%7D 的方差。 根据样本均值的定义我们有:

equation?tex=Var%28+%5Cbar%7B+X+%7D%29+%3D+Var%28%5Cdfrac%7BX_1%2BX_2%2B...%2BX_n%7D%7Bn%7D%29

根据方差的性质1和性质4有:

equation?tex=Var%28+%5Cbar%7B+X+%7D+%29+%3D+%5Cdfrac%7B1%7D%7Bn%5E2%7D%28Var%28X_1%29%2B...%2BVar%28X_n%29%29

由于单个的

equation?tex=X_i
equation?tex=X 是等价的,因为属于同一分布,因此有:

equation?tex=Var%28+%5Cbar%7B+X+%7D+%29+%3D+%5Cdfrac%7B1%7D%7Bn%5E2%7D%5Ccdot+n+%5Ccdot+%5Csigma%5E2%3D%5Cdfrac%7B%5Csigma%5E2%7D%7Bn%7D

也就是说,样本均值的方差是小于总体的方差的,并且会随着抽样次数增大而减小。这也是符合直觉的,因为你抽了一组样本求平均,当然就会减少数据的波动性。

标准差和标准误差

标准差 standard deviation 和 standard error 标准误差,两者都是用来表示数据的变异性,不同之处是前者是通过总体计算,后者是通过样本计算。所谓标准差就是总体的方差的算术平方根,记为

equation?tex=%5Csigma 。 而一个容量为
equation?tex=n 的样本的是标准差,叫做标准误差,其值为
equation?tex=%5Csigma%2F%5Csqrt%7Bn%7D 。(直接对方差的性质5的式子开方即得 )

参考资料

https://newonlinecourses.science.psu.edu/stat414/node/167/ (貌似已失效)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值