统计-参数估计-假设检验-总结一

基本概念

总体: 总体就是一个概率分布。总体分布为指数分布就是指数分布总体,总体分布为正态分布时称为正态分布总统。

总体与分布簇: 仅含一个参数的分布簇称为单参数分布簇,仅含两个参数的分布称为双参数分布簇,含多个参数则为多参数分布簇。有些情况下,只假定总体有一定的概率分布而又不能明确其数学形式,总体分布不能通过若干参数表达出来,这种情况称为非参数总体。

有限总体与无限总体: 指数分布总体与正态分布总体称为无限总体。实际上,现实世界中,多数情况下,总体总是由有限个个体构成,从而其总体总是有限的,其分布也是离散分布,引入无限总体的概念,在概率论上相当于用一个连续分布的总体去逼近这个离散分布。

样本: 按一定的规定从总体中抽出的一部分个体(每个个体同等机会被抽出,以及在这个基础上设立的某种附加条件)

统计量: 完全由样本所决定的量。也就是说统计量只依赖于样本,而不依赖于任何其他未知的量。不依赖于总体分布中所包含的未知参数。

假设 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)中抽出的样本,其中 σ 2 \sigma^2 σ2已知,而 μ \mu μ未知,则: x ˉ = 1 n ( x 1 + x 2 + . . . + x n ) \bar{x}=\frac{1}{n}(x_1+x_2+...+x_n) xˉ=n1(x1+x2+...+xn) x 1 + x 2 + x n 2 / σ 2 x_1+x_2+{x_n}^2/\sigma^2 x1+x2+xn2/σ2是统计量,这里 σ \sigma σ为已知,两个量均只由样本所决定。而 x 1 − μ x_1-\mu x1μ以及 x ˉ + λ \bar{x}+\lambda xˉ+λ均不是统计量。

统计量有什么作用
统计量由某种需要而设定。

常见的统计量
样本均值 x ˉ = 1 n ( x 1 + x 2 + . . . + x n ) = 1 n ∑ 1 n x i \bar{x}=\frac{1}{n}(x_1+x_2+...+x_n)=\frac{1}{n}\sum\limits_1^nx_i xˉ=n1(x1+x2+...+xn)=n11nxi

样本方差 s 2 = 1 n − 1 ∑ 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum\limits_1^n(x_i-\bar{x})^2 s2=n111n(xixˉ)2

样本k阶原点矩 a k = 1 n ∑ 1 n x i k a_k=\frac{1}{n}\sum\limits_1^nx_i^k ak=n11nxik(一介原点矩即分布的期望)

样本k阶中心距 m k = 1 n ∑ 1 n ( x i − x ˉ ) k m_k=\frac{1}{n}\sum\limits_1^n(x_i-\bar{x})^k mk=n11n(xixˉ)k (二阶中心矩即为分布的方差)

次序统计量 x ( 1 ) = m i n ( x 1 , x 2 , . . . , x n ) x_{(1)}=min(x_1,x_2,...,x_n) x(1)=min(x1,x2,...,xn) ;… ; x ( n ) = m a x ( x 1 , x 2 , . . . , x n ) x_{(n)}=max(x_1,x_2,...,x_n) x(n)=max(x1,x2,...,xn)

参数估计—点估计

设统计总体 x   f ( x ; θ 1 , θ 2 , . . . , θ n ) x~f(x;\theta_1,\theta_2,...,\theta_n) x f(x;θ1,θ2,...,θn),此 f ( x ; θ 1 , θ 2 , . . . , θ n ) f(x;\theta_1,\theta_2,...,\theta_n) f(x;θ1,θ2,...,θn)可能是其分布密度函数,或分布函数,这里 f ( x ; θ 1 , θ 2 , . . . , θ n ) f(x;\theta_1,\theta_2,...,\theta_n) f(x;θ1,θ2,...,θn)设定为总体分布。以正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)为例,其中 θ 1 = μ \theta_1=\mu θ1=μ θ 2 = σ 2 \theta_2=\sigma^2 θ2=σ2为其两个参数,该式可以表示为:
f ( x ; θ 1 , θ 2 ) = 1 2 π θ 2 e − ( x − θ 1 ) 2 2 θ 2 f(x;\theta_1,\theta_2)=\frac{1}{\sqrt{2\pi \theta_2}}e^{-\frac{(x-\theta_1)^2}{2\theta_2}} f(x;θ1,θ2)=2πθ2 1e2θ2(xθ1)2

点估计 :设 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为从统计总体这种抽出的样本(独立随机样本,简单随机样本),要根据样本对总体分布中参数 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn未知值进行估计,可能是 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn的某一部分,或者他们的某个已知函数 g ( θ 1 , θ 2 , . . . , θ n ) g(\theta_1,\theta_2,...,\theta_n) g(θ1,θ2,...,θn),例如要估计 θ 1 \theta_1 θ1选出合适的统计量: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn) ,每确定一组观察值 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn,代入: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn)之后就得到一个 θ 1 \theta_1 θ1的估计值。为此目的而构造的统计量: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn) 就叫做 θ 1 \theta_1 θ1的估计量。

由于未知参数 θ 1 \theta_1 θ1是数轴上的一点,用 θ 1 ~ \tilde{\theta_1} θ1~去估计 θ 1 \theta_1 θ1,就相当于由一点去估计另一点,这样的估计叫做点估计。其核心是估计量的选择。

1 | 矩估计法

1.1 方法

即用矩去估计参数,因为假设参数已知时,可以得到相应的矩,这个由参数得到的矩是理论矩,同时假设样本符合相应分布,则由样本可以获得相应的矩,由样本获得的矩是估计矩。二者划等号,就可以用估计矩(已知样本)去估计参数(未知参数)
已知总体x服从 f ( x ; θ 1 , θ 2 , . . . , θ n ) f(x;\theta_1,\theta_2,...,\theta_n) f(x;θ1,θ2,...,θn),及样本 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn,建立矩方程:
a i = E x i a_i=Ex^i ai=Exi
其中, a i a_i ai为样本的原点矩 a i = 1 n ( x 1 i + . . . + x n i ) a_i=\frac{1}{n}({x_1}^i+...+{x_n}^i) ai=n1(x1i+...+xni),解方程组得到参数 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn的矩估计量:
θ 1 ~ = θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1} = \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~=θ1~(x1,x2,...,xn)
θ 2 ~ = θ 2 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_2} = \tilde{\theta_2}(x_1,x_2,...,x_n) θ2~=θ2~(x1,x2,...,xn)
… … …… ……
θ n ~ = θ n ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_n} = \tilde{\theta_n}(x_1,x_2,...,x_n) θn~=θn~(x1,x2,...,xn)

若要估计 g ( θ 1 , θ 2 , . . . , θ n ) g(\theta_1,\theta_2,...,\theta_n) g(θ1,θ2,...,θn),则用 g ( θ 1 ~ , θ 2 ~ , . . . , θ 3 ~ ) g(\tilde{\theta_1},\tilde{\theta_2},...,\tilde{\theta_3}) g(θ1~,θ2~,...,θ3~)进行估计

1.2 矩估计实例:
  1. 设正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),其中 μ \mu μ σ 2 \sigma^2 σ2均未知,现估计两个参数。则可以建立矩方程:
    μ = x ˉ \mu=\bar x μ=xˉ σ 2 = m 2 \sigma^2=m_2 σ2=m2
    若要估计标准差 σ \sigma σ σ = σ 2 = g ( σ 2 ) \sigma=\sqrt{\sigma^2}=g(\sigma^2) σ=σ2 =g(σ2)进行估计
  2. 设总体分布为参数 λ \lambda λ的指数分布, x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为样本,要估计 1 / λ 1/\lambda 1/λ
    因为 1 / λ 1/\lambda 1/λ为一介原点矩(因为指数分布的一介原点矩,即期望为 1 / λ 1/\lambda 1/λ),由矩方程: x ˉ = 1 / λ \bar x=1/\lambda xˉ=1/λ可得 1 / λ 1/\lambda 1/λ的矩估计为 x ˉ \bar x xˉ;另因为总体分布的方差为 1 / λ 2 1/\lambda_2 1/λ2,由矩方程 m 2 = 1 / λ 2 m_2=1/\lambda_2 m2=1/λ2,也可得到 1 / λ 1/\lambda 1/λ的矩估计为 m 2 \sqrt{m_2} m2 。矩估计方法下得出不同的矩估计量 x ˉ \bar x xˉ m 2 \sqrt{m_2} m2 这里说明同一参数在矩估计法下可能得出不同的统计量
  3. 设总体分布为区间 [ θ 1 , θ 2 ] [\theta_1,\theta_2] [θ1,θ2]上的均匀分布,即x服从 U [ θ 1 , θ 2 ] U[\theta_1,\theta_2] U[θ1,θ2] x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为独立随机样本。因为均匀分布的期望为 α = ( θ 1 + θ 2 ) / 2 \alpha=(\theta_1+\theta_2)/2 α=(θ1+θ2)/2,均匀分布的方差为 μ 2 = ( θ 1 + θ 2 ) 2 / 12 \mu_2={(\theta_1+\theta_2)}^2/12 μ2=(θ1+θ2)2/12。由这两个矩估计方程,联立方程可求解参数 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2的矩估计量。

2 | 极大似然估计

2.1 方法

设总体分布x服从 f = ( x ; θ 1 , θ 2 , . . . , θ k ) f=(x;\theta_1,\theta_2,...,\theta_k) f=(x;θ1,θ2,...,θk) x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为来自总体的样本,则样本的分布为:
f ( x 1 ; θ 1 , θ 2 , . . . , θ k ) ⋅ f ( x 2 ; θ 1 , θ 2 , . . . , θ k ) ⋅ . . . ⋅ f ( x n ; θ 1 , θ 2 , . . . , θ k ) f(x_1;\theta_1,\theta_2,...,\theta_k)\cdot f(x_2;\theta_1,\theta_2,...,\theta_k)\cdot...\cdot f(x_n;\theta_1,\theta_2,...,\theta_k) f(x1;θ1,θ2,...,θk)f(x2;θ1,θ2,...,θk)...f(xn;θ1,θ2,...,θk)
L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ k ) L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k) L(x1,x2,...,xn;θ1,θ2,...,θk) 表示,L反映了在此参数 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk下的总体中抽出当前样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn的概率(由于每个样本的抽取是独立随机的,所以抽到特定总样本的概率就等于每个样本个体抽取的概率的乘积),在总体分布簇中寻找出那么一组参数,使得在该组参数下总体中出现当前样本的概率最大。
在样本 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn下,称 L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ k ) L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k) L(x1,x2,...,xn;θ1,θ2,...,θk)为似然函数,若 θ 1 ∗ , θ 2 ∗ , . . . , θ k ∗ {\theta_1}^*,{\theta_2}^*,...,{\theta_k}^* θ1,θ2,...,θk满足:
L ( x 1 , x 2 , . . . , x n ; θ 1 ∗ , θ 2 ∗ , . . . , θ k ∗ ) = m a x L ( x 1 , x 2 , . . . , x n ; θ 1 , θ 2 , . . . , θ k ) L(x_1,x_2,...,x_n;{\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*)=max L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k) L(x1,x2,...,xn;θ1,θ2,...,θk)=maxL(x1,x2,...,xn;θ1,θ2,...,θk)
那么, θ 1 ∗ , θ 2 ∗ , . . . , θ k ∗ {\theta_1}^*,{\theta_2}^*,...,{\theta_k}^* θ1,θ2,...,θk即为 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk的极大似然估计量。

2.2 极大似然估计例子
  1. 设总体分布x服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为其样本,求 μ , σ 2 \mu, \sigma^2 μ,σ2的极大似然估计 因为: f ( x ; μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x;μ,σ2)=2πσ2 1e2σ2(xμ)2 所以:
    L ( x 1 , x 2 , . . . , x n ; μ , σ 2 ) = ( 1 2 π ) n ( σ 2 ) − n 2 e − 1 2 σ 2 ∑ 1 n ( x i − μ ) 2 L(x_1,x_2,...,x_n;\mu,\sigma^2)=(\frac{1}{\sqrt{2\pi}})^n(\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2} L(x1,x2,...,xn;μ,σ2)=(2π 1)n(σ2)2ne2σ211n(xiμ)2
    求对数(通常求对数之后再求极值简单许多):
    l n L = − n 2 l n 2 π − n 2 l n σ 2 − 1 2 σ 2 ∑ 1 n ( x i − μ ) 2 lnL=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2 lnL=2nln2π2nlnσ22σ211n(xiμ)2

    将上式分别对 μ , σ 2 \mu,\sigma^2 μ,σ2求偏导,另导数为0(求极值;当导数为0时,对应的函数值为极值)
    ∑ 1 n ( x i − μ ) 2 = 0 \sum\limits_1^n(x_i-\mu)^2=0 1n(xiμ)2=0
    − n 2 ⋅ σ 2 + 1 2 σ 4 ∑ 1 n ( x i − μ ) 2 = 0 -\frac{n}{2\cdot\sigma^2}+\frac{1}{2\sigma^4}\sum\limits_1^n(x_i-\mu)^2=0 2σ2n+2σ411n(xiμ)2=0
    可以解的: μ ∗ = x ˉ \mu^*=\bar x μ=xˉ
    σ 2 ∗ = 1 n ∑ 1 n ( x i − x ˉ ) 2 {\sigma^2}^*=\frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2 σ2=n11n(xixˉ)2

    可以看到正态分布下的参数的极大似然估计恰好等于矩估计

3 | 贝叶斯估计

3.1 方法

经典统计推断方法是,在统计模型下,考察如何对来自总体的样本进行分析,从而对未知参数做出推断。贝叶斯方法在于强化参数 θ \theta θ的实验前认知,并强调这种对 θ \theta θ的认知以概率分布形成呈现,即 θ \theta θ服从某一概率分布 h ( θ ) h(\theta) h(θ),而样本是来自于随机变量 θ ∗ \theta^* θ在已经取值为 θ \theta θ后(注意此时参数 θ \theta θ为已知了,形成了当前的试验环境), x ⃗ \vec{x} x 关于 θ \theta θ值之条件分布: x ⃗ ∣ θ \vec{x}|\theta x θ
在条件总体分布 f ( x , θ ) f(x,\theta) f(x,θ)的模型之下
( x 1 , x 2 , . . . , x n ) ∣ θ = f ( x 1 , θ ) ⋅ f ( x 2 , θ ) ⋅ . . . ⋅ f ( x n , θ ) (x_1,x_2,...,x_n)|\theta=f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta) (x1,x2,...,xn)θ=f(x1,θ)f(x2,θ)...f(xn,θ)
所以在 θ \theta θ满足一定分布条件下:
( x 1 , x 2 , . . . , x n , θ ) ∣ θ = h ( θ ) ⋅ f ( x 1 , θ ) ⋅ f ( x 2 , θ ) ⋅ . . . ⋅ f ( x n , θ ) (x_1,x_2,...,x_n,\theta)|\theta=h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta) (x1,x2,...,xn,θ)θ=h(θ)f(x1,θ)f(x2,θ)...f(xn,θ)
所以在已知样本的观察值为 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn时,记 θ ∣ x 1 , x 2 , . . . , x n \theta|_{x_1,x_2,...,x_n} θx1,x2,...,xn的条件密度函数为 h ( θ ∣ x ⃗ ) h(\theta|\vec{x}) h(θx ),有:
h ( θ ∣ x ⃗ ) = h ( θ ) ⋅ f ( x 1 , θ ) ⋅ f ( x 2 , θ ) ⋅ . . . ⋅ f ( x n , θ ) ∫ θ h ( θ ) ⋅ f ( x 1 , θ ) ⋅ f ( x 2 , θ ) ⋅ . . . ⋅ f ( x n , θ ) d θ h(\theta|\vec{x})=\frac{h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)}{\int_\theta h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)d\theta} h(θx )=θh(θ)f(x1,θ)f(x2,θ)...f(xn,θ)dθh(θ)f(x1,θ)f(x2,θ)...f(xn,θ)

3.2 Bayes估计例子
  1. 设样本 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为来自总体 N ( θ , 1 ) N(\theta,1) N(θ,1),这里估计参数 θ \theta θ,又已知 θ \theta θ的先验分布为 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),利用贝叶斯估计求解: 已知 θ \theta θ分布,即:
    h ( θ ) = 1 2 π σ e − ( θ − μ ) 2 2 σ 2 h(\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\theta-\mu)^2}{2\sigma^2}} h(θ)=2π σ1e2σ2(θμ)2
    在已知 θ \theta θ条件下,x的分布为:
    f ( x , θ ) = 1 2 π e − 1 2 ( x − θ ) 2 f(x,\theta)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x-\theta)^2} f(x,θ)=2π 1e21(xθ)2
    由于 θ \theta θ是满足特定分布,( θ \theta θ在特定的值下乘以对应概率):

    f ( x 1 , x 2 , . . . , x n , θ ) = 1 ( 2 π ) n + 1 σ e x p { − ( θ − μ ) 2 2 σ 2 − 1 2 ∑ 1 n ( x i − θ ) 2 } f(x_1,x_2,...,x_n,\theta)=\frac{1}{(\sqrt{2\pi})^{n+1}\sigma}exp\{-\frac{(\theta-\mu)^2}{2\sigma^2}-\frac{1}{2}\sum_1^n(x_i-\theta)^2\} f(x1,x2,...,xn,θ)=(2π )n+1σ1exp{2σ2(θμ)2211n(xiθ)2}

    所以(分子是某一特定 θ \theta θ下的概率分布,分母是对分子在全体 θ \theta θ空间内做了积分):
    h ( θ ∣ x ⃗ ) = f ( x ⃗ , θ ) f ( x ⃗ ) h(\theta|\vec{x})=\frac{f(\vec{x},\theta)}{f(\vec{x})} h(θx )=f(x )f(x ,θ)
    = e x p { − 1 + n σ 2 2 σ 2 [ θ − μ + n σ 2 x ˉ 1 + n σ 2 ] 2 } / I =exp\{-\frac{1+n\sigma^2}{2\sigma^2}[\theta-\frac{\mu+n\sigma^2\bar{x}}{1+n\sigma^2}]^2\}/I =exp{2σ21+nσ2[θ1+nσ2μ+nσ2xˉ]2}/I

    可知,后验分布服从 N ( t , η 2 ) N(t,\eta^2) N(t,η2),其中, t = ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n) t=(nxˉ+μ/σ2)/(1/σ2+n) η 2 = 1 / ( 1 / σ 2 + n ) \eta^2=1/(1/\sigma^2+n) η2=1/(1/σ2+n)

    即: θ \theta θ的分布为: N ( ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) , 1 / ( 1 / σ 2 + n ) ) N((n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n),1/(1/\sigma^2+n)) N((nxˉ+μ/σ2)/(1/σ2+n),1/(1/σ2+n))
    若以 θ \theta θ的期望作为对参数 θ \theta θ的估计,这里用 θ ∗ \theta^* θ表示:
    θ ∗ = t = ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) = n x ˉ ( 1 / σ 2 + n ) + μ / σ 2 ( 1 / σ 2 + n ) \theta^*=t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n)=\frac{n\bar{x}}{(1/\sigma^2+n)}+\frac{\mu/\sigma^2}{(1/\sigma^2+n)} θ=t=(nxˉ+μ/σ2)/(1/σ2+n)=(1/σ2+n)nxˉ+(1/σ2+n)μ/σ2
    可见 θ ∗ \theta^* θ x ˉ \bar{x} xˉ μ \mu μ的加权平均,当样本量 n n n很大时,样本的权重增大,而样本量很小时,先验知识的权重增大。可见贝叶斯的优越性。但需要参数的先验概率分布,而确定先验概率分布是一件主观的事

4 | 点估计优良性准则

矩估计例子2中可以得知,不同方法下可能得到同参数的不同估计量。所以这里要对点估计量的优良性加以讨论。即确定同一参数 θ \theta θ不同的估计量,如 θ ~ 1 \tilde\theta_1 θ~1 θ ~ 2 \tilde\theta_2 θ~2哪个更优?

4.1 估计量的无偏性

什么是无偏?
将估计量视为随机变量,去估计g总会有偏差,无偏性表示,把这些偏差在概率上平均起来,其值为0。统计分布总体中含有未知参数 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_ k θ1,θ2,...,θk x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为从该总体中抽出的样本,要估计 g ( θ 1 , θ 2 , . . . , θ k ) g(\theta_1,\theta_2,...,\theta_k) g(θ1,θ2,...,θk),设 g ~ ( x 1 , x 2 , . . . , x n ) \tilde g(x_1,x_2,...,x_n) g~(x1,x2,...,xn)是一估计量,若对任意的 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk都有 估计值的期望等于真实值
E [ g ~ ( x 1 , x 2 , . . . , x n ) ] = g ( θ 1 , θ 2 , . . . , θ k ) E[\tilde g(x_1,x_2,...,x_n)]=g(\theta_1,\theta_2,...,\theta_k) E[g~(x1,x2,...,xn)]=g(θ1,θ2,...,θk)
则: g ~ \tilde g g~ g ( θ 1 , θ 2 , . . . , θ k ) g(\theta_1,\theta_2,...,\theta_k) g(θ1,θ2,...,θk)的一个无偏估计量。其中 E E E是指求数学期望时,各样本对参数进行的估计是在分布中参数为 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk时去做的。 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_ k θ1,θ2,...,θk是流动可变的(未知参数),而求期望时是在某一特定 θ 1 , θ 2 , . . . , θ k \theta_1,\theta_2,...,\theta_k θ1,θ2,...,θk下去计算的。这个式子表达的意思就是在特定参数下,由样本进行的估计量的期望,就等于特定参数带入方程 g g g计算的值。
以正态分布 N ( θ , − ) N(\theta,-) N(θ,)为例,样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为来自总体的样本,要计算 g ( x 1 , x 2 , . . . , x n ) = x 1 + x 2 g(x_1,x_2,...,x_n)=x_1+x_2 g(x1,x2,...,xn)=x1+x2;当 θ = 1 \theta=1 θ=1时,期望值为2; θ = 2.5 \theta=2.5 θ=2.5时,期望值为5.
无偏性证明举例
设总体分布X的方差为 σ 2 \sigma^2 σ2 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为样本, s 2 s^2 s2为样本方差,则 s 2 s^2 s2 σ 2 \sigma^2 σ2的无偏估计。
证明:设 E X = a EX=a EX=a,则 E x i = a Ex_i=a Exi=a;又:
∑ 1 n ( x i − x ˉ ) 2 = ∑ 1 n [ x i − a − ( x ˉ − a ) ] 2 = ∑ 1 n ( x i − a ) 2 − n ( x ˉ − a ) 2 \sum\limits_1^n(x_i-\bar x)^2=\sum\limits_1^n[x_i-a-(\bar x-a)]^2=\sum\limits_1^n(x_i-a)^2-n(\bar x-a)^2 1n(xixˉ)2=1n[xia(xˉa)]2=1n(xia)2n(xˉa)2
又:
n ( x ˉ − a ) 2 = n ( 1 n ∑ 1 n ( x i − a ) ) 2 = 1 n [ ∑ 1 n ( x i − a ) 2 + ∑ i ! = j ( x i − a ) ( x j − a ) ] n(\bar x-a)^2=n(\frac{1}{n}\sum\limits_1^n(x_i-a))^2=\frac{1}{n}[\sum\limits_1^n(x_i-a)^2+\sum\limits_{i!=j}(x_i-a)(x_j-a)] n(xˉa)2=n(n11n(xia))2=n1[1n(xia)2+i!=j(xia)(xja)]
x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn独立可知, x 1 − a , x 2 − a , . . . , x n − a x_1-a,x_2-a,...,x_n-a x1a,x2a,...,xna也相互独立,所以:
E ( n ( x ˉ − a ) 2 ) = 1 n [ n ⋅ σ 2 + E ∑ i ! = j ( x i − a ) ( x j − a ) ] = σ 2 E(n(\bar x-a)^2)=\frac{1}{n}[n\cdot\sigma^2+E\sum\limits_{i!=j}(x_i-a)(x_j-a)]=\sigma^2 E(n(xˉa)2)=n1[nσ2+Ei!=j(xia)(xja)]=σ2
所以:
E [ ∑ 1 n ( x i − x ˉ ) 2 ] = n σ 2 − σ 2 = ( n − 1 ) σ 2 E[\sum\limits_1^n(x_i-\bar x)^2]=n\sigma^2-\sigma^2=(n-1)\sigma^2 E[1n(xixˉ)2]=nσ2σ2=(n1)σ2
所以:
E s 2 = σ 2 Es^2=\sigma^2 Es2=σ2

这里对 ∑ 1 n ( x i − a ) 2 \sum\limits_1^n(x_i-a)^2 1n(xia)2求期望是在方差 σ \sigma σ下,也即样本是在方差 σ \sigma σ下的样本,对其求期望就等于 n σ 2 n\sigma^2 nσ2,当a为已知时则需要用 1 n ∑ 1 n ( x i − a ) 2 \frac{1}{n}\sum\limits_1^n(x_i-a)^2 n11n(xia)2作为无偏估计量,而不是用 1 n ∑ 1 n ( x i − x ˉ ) 2 \frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2 n11n(xixˉ)2

虽然 E s 2 = σ 2 Es^2=\sigma^2 Es2=σ2,即 s 2 s^2 s2 σ 2 \sigma^2 σ2的无偏估计,但 s s s并不是 σ \sigma σ的无偏估计。因为 D s = E s 2 − ( E s ) 2 > = 0 Ds=Es^2-(Es)^2>=0 Ds=Es2(Es)2>=0,又 E s 2 = σ 2 Es^2=\sigma^2 Es2=σ2,所以: E s < = σ Es<=\sigma Es<=σ s s s去估计 σ \sigma σ总是系统性偏低。通常引入一个因子 c n c_n cn使得 c n s c_ns cns σ \sigma σ的无偏估计。

4.2 数量指标—均方误差

什么是均方误差
设样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为来自统计总体的样本服从 f ( x , θ ) f(x,\theta) f(x,θ),要估计 θ \theta θ采用统计量 θ ~ ( x 1 , x 2 , . . . , x n ) \tilde\theta(x_1,x_2,...,x_n) θ~(x1,x2,...,xn)作为 θ \theta θ的估计量,定义 M θ ~ ( θ ) M_{\tilde\theta}(\theta) Mθ~(θ)
M θ ~ ( θ ) = E θ [ θ ~ ( x 1 , x 2 , . . . , x n ) − θ ] 2 M_{\tilde\theta}(\theta)=E_\theta[\tilde\theta(x_1,x_2,...,x_n)-\theta]^2 Mθ~(θ)=Eθ[θ~(x1,x2,...,xn)θ]2
M θ ~ ( θ ) M_{\tilde\theta}(\theta) Mθ~(θ) θ ~ \tilde\theta θ~的均方误差,此值越小越优。

均方误差让估计更优良
例如 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为样本, θ ~ 1 = x ˉ \tilde\theta_1=\bar x θ~1=xˉ以及 θ ~ 2 = x 1 \tilde\theta_2=x_1 θ~2=x1均为 μ \mu μ的无偏估计量,但: M θ ~ 1 ( μ ) = E μ ( x ˉ − μ ) = σ 2 / n M_{\tilde\theta_1}(\mu)=E_\mu(\bar x-\mu)=\sigma^2/n Mθ~1(μ)=Eμ(xˉμ)=σ2/n M θ ~ 2 ( μ ) = σ 2 M_{\tilde\theta_2}(\mu)=\sigma^2 Mθ~2(μ)=σ2,结合此指标, x ˉ \bar x xˉ更优

注意:无法找到一个估计量使之优于其他任意估计量,就像不能找到一个最小的正数使之都小于其他正数(无穷小不算数)。但能尽可能寻找使均方误差最小的估计量。(最小方差无偏估计
M θ ~ ( θ ) = E ( θ ~ − θ ) 2 = E ( θ ~ − E θ ~ + E θ ~ − θ ) 2 = v a r θ ~ + ( E θ ~ − θ ) 2 M_{\tilde\theta}(\theta)=E(\tilde\theta-\theta)^2=E(\tilde\theta-E\tilde\theta+E\tilde\theta-\theta)^2=var\tilde\theta+(E\tilde\theta-\theta)^2 Mθ~(θ)=E(θ~θ)2=E(θ~Eθ~+Eθ~θ)2=varθ~+(Eθ~θ)2
当为无偏时,均方误差就时估计量本身的方差 M θ ~ ( θ ) = v a r θ ~ M_{\tilde\theta}(\theta)=var\tilde\theta Mθ~(θ)=varθ~,估计量方差越小,均方误差指标越小,也很好理解,又无偏(无偏不等于没有偏差,而是偏差期望为被估计参数本身,也就是基于参数本身左偏右偏抵消),两侧的偏离量又小,说明估计准确

均匀分布看如何选取最优估计量
x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为来自总体X服从 U [ 0 , θ ] U[0,\theta] U[0,θ],已知 θ ~ 1 = 2 x ˉ \tilde\theta_1=2\bar x θ~1=2xˉ(通过矩估计得到);以及 θ ~ 2 = n + 1 n x ( n ) \tilde\theta_2=\frac{n+1}{n}x_{(n)} θ~2=nn+1x(n)(由极大似然估计法得到)为 θ \theta θ的两个无偏估计量,现比较方差大小。
先说明 θ ~ 2 = n + 1 n x ( n ) \tilde\theta_2=\frac{n+1}{n}x_{(n)} θ~2=nn+1x(n)如何得到:
由极大似然估计发构造似然方程:
L ( x 1 , x 2 , . . . , x n , θ ) = 1 θ n L(x_1,x_2,...,x_n,\theta)=\frac{1}{\theta^n} L(x1,x2,...,xn,θ)=θn1
显然,为找到 θ ~ \tilde\theta θ~使得 L ( x 1 , x 2 , . . . , x n , θ ) L(x_1,x_2,...,x_n,\theta) L(x1,x2,...,xn,θ)为最小,只要 θ \theta θ最小,而 θ \theta θ又是大于等于 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn的值,因此,只要 θ ~ = x ( n ) \tilde\theta=x_{(n)} θ~=x(n),即: θ \theta θ的极大似然估计量为 x ( n ) x_{(n)} x(n)
但此时 x ( n ) x_{(n)} x(n)估计 θ \theta θ偏低,可以求一系数 c n c_n cn使得 c n x ( n ) c_nx_{(n)} cnx(n) θ \theta θ的无偏估计量。总体分布的密度函数为: f ( x , θ ) = 1 / θ f(x,\theta)=1/\theta f(x,θ)=1/θ
分布函数为: F ( x , θ ) = 1 , x > = θ ; x / θ , 0 < = x < = θ ; 0 , x < 0 F(x,\theta)=1,x>=\theta;x/\theta,0<=x<=\theta;0,x<0 F(x,θ)=1,x>=θ;x/θ,0<=x<=θ;0,x<0
x ( n ) x_{(n)} x(n)的分布函数为: G ( x , θ ) = 1 , x > = θ ; x n / θ n , 0 < = x < = θ ; 0 , x < 0 G(x,\theta)=1,x>=\theta;x^n/\theta^n,0<=x<=\theta;0,x<0 G(x,θ)=1,x>=θ;xn/θn,0<=x<=θ;0,x<0
所以: E ( x ( n ) ) = n n + 1 θ E(x_{(n)})=\frac{n}{n+1}\theta E(x(n))=n+1nθ
所以: E ( n + 1 n x ( n ) ) = θ E(\frac{n+1}{n}x_{(n)})=\theta E(nn+1x(n))=θ
n + 1 n x ( n ) \frac{n+1}{n}x_{(n)} nn+1x(n) θ \theta θ的无偏估计量。现讨论两个无偏估计量的方差:
θ ~ 1 = 2 x ˉ \tilde\theta_1=2\bar x θ~1=2xˉ易知:
v a r ( θ ~ 1 ) = v a r ( 2 x ˉ ) = θ 2 3 n var(\tilde\theta_1)=var(2\bar x)=\frac{\theta^2}{3n} var(θ~1)=var(2xˉ)=3nθ2
又:
v a r ( x ( n ) ) = E ( x ( n ) 2 ) − ( E ( x ( n ) ) 2 ) = n n + 2 θ 2 − n 2 ( n + 1 ) 2 θ 2 = n ( n + 2 ) ( n + 1 ) 2 θ 2 var(x_{(n)})=E(x_{(n)}^2)-(E(x_{(n)})^2)=\frac{n}{n+2}\theta^2-\frac{n^2}{(n+1)^2}\theta^2=\frac{n}{(n+2)(n+1)^2}\theta^2 var(x(n))=E(x(n)2)(E(x(n))2)=n+2nθ2(n+1)2n2θ2=(n+2)(n+1)2nθ2
因此 :
v a r ( θ ~ 2 ) = ( n + 1 ) 2 n 2 v a r ( x ( n ) ) = 1 n ( n + 2 ) θ 2 < = v a r θ ~ 1 var(\tilde\theta_2)=\frac{(n+1)^2}{n^2}var(x_{(n)})=\frac{1}{n(n+2)}\theta^2<=var\tilde\theta_1 var(θ~2)=n2(n+1)2var(x(n))=n(n+2)1θ2<=varθ~1
说明 θ ~ 2 \tilde\theta_2 θ~2 θ \theta θ的估计优于 θ ~ 1 \tilde\theta_1 θ~1

寻找最小方差无偏估计

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cshgiser

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值