1.样本方差的公式推导


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


样本方差的推导

有偏估计和无偏估计

  • 有偏估计:由样本值求得的估计值与待估参数的真值之间有系统误差,估计值的期望不是系统的真值
  • 无偏估计:估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。

我们常见的应用中,样本均值是对总体均值的无偏估计 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ,而样本的整体方差不是对总体方差的无偏估计, E ( S 2 ) = n n − 1 σ 2 E(S^2)=\frac{n}{n-1}\sigma^2 E(S2)=n1nσ2

极大似然估计

“似然”用现代的中文来说即“可能性”,因此可称之为“最大可能性估计”,用来求一个样本集的相关概率密度函数的参数。

定义,假设 X X X为离散随机变量,其概率分布函数 P ( X = x ) = f ( x ; θ ) P(X=x)=f(x;\theta) P(X=x)=f(x;θ),与参数 θ \theta θ相关。设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn为样本, x 1 , . . . , x n x_1,...,x_n x1,...,xn为样本的观测值,样本的似然函数可以定义为样本观测值 x 1 , . . . , x n x_1,...,x_n x1,...,xn的概率,

L ( x 1 , . . . , x n ; θ ) = P ( X = x 1 , . . . , X n = x n ) = ∏ i = 1 n f ( x i ; θ ) L(x_1,...,x_n;\theta)=P(X=x_1,...,X_n=x_n)=\prod_{i=1}^{n}f(x_i;\theta) L(x1,...,xn;θ)=P(X=x1,...,Xn=xn)=i=1nf(xi;θ)

给定样本观测值 x 1 , . . . , x n x_1,...,x_n x1,...,xn,似然函数 L L L是参数 θ \theta θ的函数,这个函数的目的就是求参数 θ \theta θ,使似然函数 L L L能取最大值。

例如, X ∼ B ( 1 , p ) X\sim B(1,p) XB(1,p),从中取 [ 1 , 1 , 0 , 0 , 1 ] [1,1,0,0,1] [1,1,0,0,1]观测值,此时似然函数 L ( p ) = p 3 ( 1 − p ) 2 , p ∈ ( 0 , 1 ) L(p)=p^3(1-p)^2,p\in(0,1) L(p)=p3(1p)2,p(0,1), B B B表示是贝努力分布,要求 p p p,就是求能使 L ( p ) L(p) L(p)取最大值的值, d L d p = 0 \frac{dL}{dp}=0 dpdL=0,可求得 p = 0.6 p=0.6 p=0.6

大数定律

定义:设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn是独立同分布的随机变量序列,并且其数学期望 E ( X k ) = μ ( k = 1 , 2 , . . . ) E(X_k)=\mu (k=1,2,...) E(Xk)=μ(k=1,2,...),取n个样本的算术平均 1 n ∑ k = 1 n X k \frac{1}{n}\sum\limits_{k=1}^{n}X_k n1k=1nXk,对任意的 ϵ > 0 \epsilon\gt 0 ϵ>0有以下不等式成立:

lim ⁡ n → + ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ϵ } = 1 \lim_{n\rightarrow+\infty}P\{|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu|\lt \epsilon\}=1 n+limP{n1k=1nXkμ<ϵ}=1

简单来讲就是,样本均值的期望等于总体的均值

中心极限定理

独立同分布的中心极限定理:设随机变量序列 X 1 , . . . , X n X_1,...,X_n X1,...,Xn独立同分布,且其数学期望和方差分别为 E ( X k ) = μ , D ( X k ) = σ 2 > 0 ( k = 1 , 2 , . . . ) E(X_k)=\mu,D(X_k)=\sigma^2\gt0(k=1,2,...) E(Xk)=μ,D(Xk)=σ2>0(k=1,2,...)则随机变量之和 ∑ i = 1 n X k \sum\limits_{i=1}^{n}X_k i=1nXk的标准化变量:

Y n = ∑ k = 1 n X k − n μ n σ Y_n=\frac{\sum\limits_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma} Yn=n σk=1nXknμ
服从于标准正态分布。

简单来说就是,样本均值服从于期望为总体均值 μ \mu μ,方差为总体方差除以样本数 σ 2 n \frac{\sigma^2}{n} nσ2的正态分布,即 X ˉ ∼ N ( μ , σ 2 / n ) \bar{X}\sim N(\mu, \sigma^2/n) XˉN(μ,σ2/n)

样本方差

给定一组观测数据 x 1 , . . . , x n x_1,...,x_n x1,...,xn,计算其总体方差时使用如下公式:

S 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 S2=n1i=1n(xixˉ)2

x ˉ \bar{x} xˉ是样本均值。从上式可以看到,总体方差是样本观测值偏离样本均值误差平方的均值,其衡量了数据的离散程度,方差越大越离散。

从一个连续分布中随机取样得到一组观测值为 x 1 , . . . , x n x_1,...,x_n x1,...,xn,想要通过观测值估计连续分布的方差,一种自然的想法是使用样本观测值的总体方差 S 2 S^2 S2做为连续分布方差 σ 2 \sigma^2 σ2的无偏估计,即假设

σ 2 = E [ S 2 ] = E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ + μ − x ˉ ) 2 ] = E [ 1 n ∑ i = 1 n [ ( x i − μ ) − ( x ˉ − μ ) ] 2 ] = E [ 1 n ∑ i = 1 n [ ( x i − μ ) 2 + ( μ − x ˉ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) ] ] = 1 n ∑ i = 1 n E [ ( x i − μ ) 2 ] + 1 n ∑ i = 1 n E [ ( μ − x ˉ ) 2 ] − 2 n ∑ i = 1 n E [ ( x i − μ ) ( x ˉ − μ ) ] = 1 n ∑ i = 1 n v a r [ x i ] + 1 n ∑ i = 1 n v a r [ x ˉ ] − 2 n ∑ i = 1 n E [ ( x i − μ ) ( x ˉ − μ ) ] = 1 n ∑ i = 1 n σ 2 + 1 n ∑ i = 1 n σ 2 n − 2 n ∑ i = 1 n E [ ( x i − μ ) ( 1 n ∑ j = 1 n x j − μ ) ] = 1 n n σ 2 + 1 n n σ 2 n − 2 n 1 n ∑ i = 1 n E [ ( x i − μ ) ( ∑ j = 1 n x j − n μ ) ] = σ 2 + σ 2 n − 2 n 1 n ∑ i = 1 n E [ ( x i − μ ) ( ∑ j = 1 n ( x j − μ ) ) ] = n + 1 n σ 2 − 2 n 1 n ∑ i = 1 n ∑ j = 1 n E [ ( x i − μ ) ( x j − μ ) ] \begin{align*} \sigma ^2 &= E[S^2] \\ &=E[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu+\mu-\bar{x})^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}[(x_i-\mu)-(\bar{x}-\mu)]^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}[(x_i-\mu)^2+(\mu-\bar{x})^2-2(x_i-\mu)(\bar{x}-\mu)]]\\ &=\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)^2]+\frac{1}{n}\sum_{i=1}^{n}E[(\mu-\bar{x})^2]-\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\bar{x}-\mu)]\\ &=\frac{1}{n}\sum_{i=1}^{n}var[x_i]+\frac{1}{n}\sum_{i=1}^{n}var[\bar{x}]-\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\bar{x}-\mu)]\\ &=\frac{1}{n}\sum_{i=1}^{n}\sigma^2+\frac{1}{n}\sum_{i=1}^{n}\frac{\sigma^2}{n} -\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\frac{1}{n}\sum_{j=1}^{n}x_j-\mu)]\\ &=\frac{1}{n}n\sigma^2+\frac{1}{n}n\frac{\sigma^2}{n} -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\sum_{j=1}^{n}x_j-n\mu)]\\ &=\sigma^2+\frac{\sigma^2}{n} -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\sum_{j=1}^{n}(x_j-\mu))]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n}E[(x_i-\mu)(x_j-\mu)]\\ \end{align*} σ2=E[S2]=E[n1i=1n(xixˉ)2]=E[n1i=1n(xiμ+μxˉ)2]=E[n1i=1n[(xiμ)(xˉμ)]2]=E[n1i=1n[(xiμ)2+(μxˉ)22(xiμ)(xˉμ)]]=n1i=1nE[(xiμ)2]+n1i=1nE[(μxˉ)2]n2i=1nE[(xiμ)(xˉμ)]=n1i=1nvar[xi]+n1i=1nvar[xˉ]n2i=1nE[(xiμ)(xˉμ)]=n1i=1nσ2+n1i=1nnσ2n2i=1nE[(xiμ)(n1j=1nxjμ)]=n1nσ2+n1nnσ2n2n1i=1nE[(xiμ)(j=1nxjnμ)]=σ2+nσ2n2n1i=1nE[(xiμ)(j=1n(xjμ))]=nn+1σ2n2n1i=1nj=1nE[(xiμ)(xjμ)]

因为 X X X是独立变量, x i / x j x_i/x_j xi/xj相互独立,当 i ≠ j i\neq j i=j时, E [ ( x i − μ ) ( x j − μ ) ] = 0 E[(x_i-\mu)(x_j-\mu)]=0 E[(xiμ)(xjμ)]=0
E [ S 2 ] = n + 1 n σ 2 − 2 n 1 n ∑ i = 1 n ∑ j = 1 n E [ ( x i − μ ) ( x j − μ ) ] = n + 1 n σ 2 − 2 n 1 n ∑ i = 1 n E [ ( x i − μ ) 2 ] = n + 1 n σ 2 − 2 n 1 n ∑ i = 1 n v a r [ x i ] = n + 1 n σ 2 − 2 n 1 n n σ 2 = n − 1 n σ 2 \begin{align*} E[S^2] &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n}E[(x_i-\mu)(x_j-\mu)]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)^2]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}var[x_i]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}n\sigma ^2\\ &=\frac{n-1}{n}\sigma^2 \end{align*} E[S2]=nn+1σ2n2n1i=1nj=1nE[(xiμ)(xjμ)]=nn+1σ2n2n1i=1nE[(xiμ)2]=nn+1σ2n2n1i=1nvar[xi]=nn+1σ2n2n1nσ2=nn1σ2

由上面的公式可以知道,样本观测值的总体方差的期望不等于随机变量分布的方差,因此样本观测值的总体方差不是随机变量分布方差的无偏估计。

E [ S 2 ] = n − 1 n σ 2 E[S^2]=\frac{n-1}{n}\sigma^2 E[S2]=nn1σ2
上式左右两边同时乘以 n n − 1 \frac{n}{n-1} n1n,得
σ 2 = n n − 1 E [ S 2 ] \sigma^2=\frac{n}{n-1}E[S^2] σ2=n1nE[S2]

σ 2 = E [ n n − 1 S 2 ] \sigma^2=E[\frac{n}{n-1}S^2] σ2=E[n1nS2]

因此能做为总体偏差无偏估计的样本偏差的计算公式为:

σ 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \sigma^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 σ2=n11i=1n(xixˉ)2

为什么分母是 n − 1 n-1 n1时,才能得到无偏的总体方差估计呢? 产生偏差的本质是因为均值用的是样本均值 x ˉ \bar{x} xˉ而非总体均值 μ \mu μ,这导致采样出来的样本之间不是完全相互独立的,自由度从 n n n减少了1,变成了 n − 1 n-1 n1 x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum\limits_{i=1}^{n}x_i xˉ=n1i=1nxi,当给定 x ˉ \bar{x} xˉ和任意 n − 1 n-1 n1个观测值时,剩下一个变量值都可以确定下来,因此只有 n − 1 n-1 n1个自由度,因此除以 n − 1 n-1 n1可以得到无偏估计。


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值