统计-参数估计-假设检验-总结一
基本概念
总体: 总体就是一个概率分布。总体分布为指数分布就是指数分布总体,总体分布为正态分布时称为正态分布总统。
总体与分布簇: 仅含一个参数的分布簇称为单参数分布簇,仅含两个参数的分布称为双参数分布簇,含多个参数则为多参数分布簇。有些情况下,只假定总体有一定的概率分布而又不能明确其数学形式,总体分布不能通过若干参数表达出来,这种情况称为非参数总体。
有限总体与无限总体: 指数分布总体与正态分布总体称为无限总体。实际上,现实世界中,多数情况下,总体总是由有限个个体构成,从而其总体总是有限的,其分布也是离散分布,引入无限总体的概念,在概率论上相当于用一个连续分布的总体去逼近这个离散分布。
样本: 按一定的规定从总体中抽出的一部分个体(每个个体同等机会被抽出,以及在这个基础上设立的某种附加条件)
统计量: 完全由样本所决定的量。也就是说统计量只依赖于样本,而不依赖于任何其他未知的量。不依赖于总体分布中所包含的未知参数。
假设 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)中抽出的样本,其中 σ 2 \sigma^2 σ2已知,而 μ \mu μ未知,则: x ˉ = 1 n ( x 1 + x 2 + . . . + x n ) \bar{x}=\frac{1}{n}(x_1+x_2+...+x_n) xˉ=n1(x1+x2+...+xn), x 1 + x 2 + x n 2 / σ 2 x_1+x_2+{x_n}^2/\sigma^2 x1+x2+xn2/σ2是统计量,这里 σ \sigma σ为已知,两个量均只由样本所决定。而 x 1 − μ x_1-\mu x1−μ以及 x ˉ + λ \bar{x}+\lambda xˉ+λ均不是统计量。
统计量有什么作用
统计量由某种需要而设定。
常见的统计量
样本均值:
x
ˉ
=
1
n
(
x
1
+
x
2
+
.
.
.
+
x
n
)
=
1
n
∑
1
n
x
i
\bar{x}=\frac{1}{n}(x_1+x_2+...+x_n)=\frac{1}{n}\sum\limits_1^nx_i
xˉ=n1(x1+x2+...+xn)=n11∑nxi
样本方差: s 2 = 1 n − 1 ∑ 1 n ( x i − x ˉ ) 2 s^2=\frac{1}{n-1}\sum\limits_1^n(x_i-\bar{x})^2 s2=n−111∑n(xi−xˉ)2
样本k阶原点矩: a k = 1 n ∑ 1 n x i k a_k=\frac{1}{n}\sum\limits_1^nx_i^k ak=n11∑nxik(一介原点矩即分布的期望)
样本k阶中心距: m k = 1 n ∑ 1 n ( x i − x ˉ ) k m_k=\frac{1}{n}\sum\limits_1^n(x_i-\bar{x})^k mk=n11∑n(xi−xˉ)k (二阶中心矩即为分布的方差)
次序统计量: x ( 1 ) = m i n ( x 1 , x 2 , . . . , x n ) x_{(1)}=min(x_1,x_2,...,x_n) x(1)=min(x1,x2,...,xn) ;… ; x ( n ) = m a x ( x 1 , x 2 , . . . , x n ) x_{(n)}=max(x_1,x_2,...,x_n) x(n)=max(x1,x2,...,xn)
参数估计—点估计
设统计总体
x
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
x~f(x;\theta_1,\theta_2,...,\theta_n)
x f(x;θ1,θ2,...,θn),此
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
f(x;\theta_1,\theta_2,...,\theta_n)
f(x;θ1,θ2,...,θn)可能是其分布密度函数,或分布函数,这里
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
f(x;\theta_1,\theta_2,...,\theta_n)
f(x;θ1,θ2,...,θn)设定为总体分布。以正态分布
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2)为例,其中
θ
1
=
μ
\theta_1=\mu
θ1=μ,
θ
2
=
σ
2
\theta_2=\sigma^2
θ2=σ2为其两个参数,该式可以表示为:
f
(
x
;
θ
1
,
θ
2
)
=
1
2
π
θ
2
e
−
(
x
−
θ
1
)
2
2
θ
2
f(x;\theta_1,\theta_2)=\frac{1}{\sqrt{2\pi \theta_2}}e^{-\frac{(x-\theta_1)^2}{2\theta_2}}
f(x;θ1,θ2)=2πθ21e−2θ2(x−θ1)2
点估计 :设 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为从统计总体这种抽出的样本(独立随机样本,简单随机样本),要根据样本对总体分布中参数 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn未知值进行估计,可能是 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_n θ1,θ2,...,θn的某一部分,或者他们的某个已知函数 g ( θ 1 , θ 2 , . . . , θ n ) g(\theta_1,\theta_2,...,\theta_n) g(θ1,θ2,...,θn),例如要估计 θ 1 \theta_1 θ1选出合适的统计量: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn) ,每确定一组观察值 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn,代入: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn)之后就得到一个 θ 1 \theta_1 θ1的估计值。为此目的而构造的统计量: θ 1 ~ ( x 1 , x 2 , . . . , x n ) \tilde{\theta_1}(x_1,x_2,...,x_n) θ1~(x1,x2,...,xn) 就叫做 θ 1 \theta_1 θ1的估计量。
由于未知参数 θ 1 \theta_1 θ1是数轴上的一点,用 θ 1 ~ \tilde{\theta_1} θ1~去估计 θ 1 \theta_1 θ1,就相当于由一点去估计另一点,这样的估计叫做点估计。其核心是估计量的选择。
1 | 矩估计法
1.1 方法
即用矩去估计参数,因为假设参数已知时,可以得到相应的矩,这个由参数得到的矩是理论矩,同时假设样本符合相应分布,则由样本可以获得相应的矩,由样本获得的矩是估计矩。二者划等号,就可以用估计矩(已知样本)去估计参数(未知参数)
已知总体x服从
f
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
n
)
f(x;\theta_1,\theta_2,...,\theta_n)
f(x;θ1,θ2,...,θn),及样本
x
1
x_1
x1,
x
2
x_2
x2,
.
.
.
...
...,
x
n
x_n
xn,建立矩方程:
a
i
=
E
x
i
a_i=Ex^i
ai=Exi
其中,
a
i
a_i
ai为样本的原点矩
a
i
=
1
n
(
x
1
i
+
.
.
.
+
x
n
i
)
a_i=\frac{1}{n}({x_1}^i+...+{x_n}^i)
ai=n1(x1i+...+xni),解方程组得到参数
θ
1
,
θ
2
,
.
.
.
,
θ
n
\theta_1,\theta_2,...,\theta_n
θ1,θ2,...,θn的矩估计量:
θ
1
~
=
θ
1
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\tilde{\theta_1} = \tilde{\theta_1}(x_1,x_2,...,x_n)
θ1~=θ1~(x1,x2,...,xn)
θ
2
~
=
θ
2
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\tilde{\theta_2} = \tilde{\theta_2}(x_1,x_2,...,x_n)
θ2~=θ2~(x1,x2,...,xn)
…
…
……
……
θ
n
~
=
θ
n
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\tilde{\theta_n} = \tilde{\theta_n}(x_1,x_2,...,x_n)
θn~=θn~(x1,x2,...,xn)
若要估计 g ( θ 1 , θ 2 , . . . , θ n ) g(\theta_1,\theta_2,...,\theta_n) g(θ1,θ2,...,θn),则用 g ( θ 1 ~ , θ 2 ~ , . . . , θ 3 ~ ) g(\tilde{\theta_1},\tilde{\theta_2},...,\tilde{\theta_3}) g(θ1~,θ2~,...,θ3~)进行估计
1.2 矩估计实例:
- 设正态分布
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2),其中
μ
\mu
μ和
σ
2
\sigma^2
σ2均未知,现估计两个参数。则可以建立矩方程:
μ = x ˉ \mu=\bar x μ=xˉ σ 2 = m 2 \sigma^2=m_2 σ2=m2
若要估计标准差 σ \sigma σ由 σ = σ 2 = g ( σ 2 ) \sigma=\sqrt{\sigma^2}=g(\sigma^2) σ=σ2=g(σ2)进行估计 - 设总体分布为参数
λ
\lambda
λ的指数分布,
x
1
x_1
x1,
x
2
x_2
x2,
.
.
.
...
...,
x
n
x_n
xn为样本,要估计
1
/
λ
1/\lambda
1/λ。
因为 1 / λ 1/\lambda 1/λ为一介原点矩(因为指数分布的一介原点矩,即期望为 1 / λ 1/\lambda 1/λ),由矩方程: x ˉ = 1 / λ \bar x=1/\lambda xˉ=1/λ可得 1 / λ 1/\lambda 1/λ的矩估计为 x ˉ \bar x xˉ;另因为总体分布的方差为 1 / λ 2 1/\lambda_2 1/λ2,由矩方程 m 2 = 1 / λ 2 m_2=1/\lambda_2 m2=1/λ2,也可得到 1 / λ 1/\lambda 1/λ的矩估计为 m 2 \sqrt{m_2} m2。矩估计方法下得出不同的矩估计量 x ˉ \bar x xˉ和 m 2 \sqrt{m_2} m2,这里说明同一参数在矩估计法下可能得出不同的统计量 - 设总体分布为区间 [ θ 1 , θ 2 ] [\theta_1,\theta_2] [θ1,θ2]上的均匀分布,即x服从 U [ θ 1 , θ 2 ] U[\theta_1,\theta_2] U[θ1,θ2], x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为独立随机样本。因为均匀分布的期望为 α = ( θ 1 + θ 2 ) / 2 \alpha=(\theta_1+\theta_2)/2 α=(θ1+θ2)/2,均匀分布的方差为 μ 2 = ( θ 1 + θ 2 ) 2 / 12 \mu_2={(\theta_1+\theta_2)}^2/12 μ2=(θ1+θ2)2/12。由这两个矩估计方程,联立方程可求解参数 θ 1 , θ 2 \theta_1,\theta_2 θ1,θ2的矩估计量。
2 | 极大似然估计
2.1 方法
设总体分布x服从
f
=
(
x
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
f=(x;\theta_1,\theta_2,...,\theta_k)
f=(x;θ1,θ2,...,θk);
x
1
x_1
x1,
x
2
x_2
x2,
.
.
.
...
...,
x
n
x_n
xn为来自总体的样本,则样本的分布为:
f
(
x
1
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
⋅
f
(
x
2
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
⋅
.
.
.
⋅
f
(
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
f(x_1;\theta_1,\theta_2,...,\theta_k)\cdot f(x_2;\theta_1,\theta_2,...,\theta_k)\cdot...\cdot f(x_n;\theta_1,\theta_2,...,\theta_k)
f(x1;θ1,θ2,...,θk)⋅f(x2;θ1,θ2,...,θk)⋅...⋅f(xn;θ1,θ2,...,θk)
用
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)
L(x1,x2,...,xn;θ1,θ2,...,θk) 表示,L反映了在此参数
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk下的总体中抽出当前样本
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn的概率(由于每个样本的抽取是独立随机的,所以抽到特定总样本的概率就等于每个样本个体抽取的概率的乘积),在总体分布簇中寻找出那么一组参数,使得在该组参数下总体中出现当前样本的概率最大。
在样本
x
1
x_1
x1,
x
2
x_2
x2,
.
.
.
...
...,
x
n
x_n
xn下,称
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)
L(x1,x2,...,xn;θ1,θ2,...,θk)为似然函数,若
θ
1
∗
,
θ
2
∗
,
.
.
.
,
θ
k
∗
{\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*
θ1∗,θ2∗,...,θk∗满足:
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
∗
,
θ
2
∗
,
.
.
.
,
θ
k
∗
)
=
m
a
x
L
(
x
1
,
x
2
,
.
.
.
,
x
n
;
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
L(x_1,x_2,...,x_n;{\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*)=max L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)
L(x1,x2,...,xn;θ1∗,θ2∗,...,θk∗)=maxL(x1,x2,...,xn;θ1,θ2,...,θk)
那么,
θ
1
∗
,
θ
2
∗
,
.
.
.
,
θ
k
∗
{\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*
θ1∗,θ2∗,...,θk∗即为
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk的极大似然估计量。
2.2 极大似然估计例子
-
设总体分布x服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2), x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn为其样本,求 μ , σ 2 \mu, \sigma^2 μ,σ2的极大似然估计 因为: f ( x ; μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x;μ,σ2)=2πσ21e−2σ2(x−μ)2 所以:
L ( x 1 , x 2 , . . . , x n ; μ , σ 2 ) = ( 1 2 π ) n ( σ 2 ) − n 2 e − 1 2 σ 2 ∑ 1 n ( x i − μ ) 2 L(x_1,x_2,...,x_n;\mu,\sigma^2)=(\frac{1}{\sqrt{2\pi}})^n(\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2} L(x1,x2,...,xn;μ,σ2)=(2π1)n(σ2)−2ne−2σ211∑n(xi−μ)2
求对数(通常求对数之后再求极值简单许多):
l n L = − n 2 l n 2 π − n 2 l n σ 2 − 1 2 σ 2 ∑ 1 n ( x i − μ ) 2 lnL=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2 lnL=−2nln2π−2nlnσ2−2σ211∑n(xi−μ)2将上式分别对 μ , σ 2 \mu,\sigma^2 μ,σ2求偏导,另导数为0(求极值;当导数为0时,对应的函数值为极值)
∑ 1 n ( x i − μ ) 2 = 0 \sum\limits_1^n(x_i-\mu)^2=0 1∑n(xi−μ)2=0
− n 2 ⋅ σ 2 + 1 2 σ 4 ∑ 1 n ( x i − μ ) 2 = 0 -\frac{n}{2\cdot\sigma^2}+\frac{1}{2\sigma^4}\sum\limits_1^n(x_i-\mu)^2=0 −2⋅σ2n+2σ411∑n(xi−μ)2=0
可以解的: μ ∗ = x ˉ \mu^*=\bar x μ∗=xˉ
σ 2 ∗ = 1 n ∑ 1 n ( x i − x ˉ ) 2 {\sigma^2}^*=\frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2 σ2∗=n11∑n(xi−xˉ)2可以看到正态分布下的参数的极大似然估计恰好等于矩估计
3 | 贝叶斯估计
3.1 方法
经典统计推断方法是,在统计模型下,考察如何对来自总体的样本进行分析,从而对未知参数做出推断。贝叶斯方法在于强化参数
θ
\theta
θ的实验前认知,并强调这种对
θ
\theta
θ的认知以概率分布形成呈现,即
θ
\theta
θ服从某一概率分布
h
(
θ
)
h(\theta)
h(θ),而样本是来自于随机变量
θ
∗
\theta^*
θ∗在已经取值为
θ
\theta
θ后(注意此时参数
θ
\theta
θ为已知了,形成了当前的试验环境),
x
⃗
\vec{x}
x关于
θ
\theta
θ值之条件分布:
x
⃗
∣
θ
\vec{x}|\theta
x∣θ
在条件总体分布
f
(
x
,
θ
)
f(x,\theta)
f(x,θ)的模型之下
(
x
1
,
x
2
,
.
.
.
,
x
n
)
∣
θ
=
f
(
x
1
,
θ
)
⋅
f
(
x
2
,
θ
)
⋅
.
.
.
⋅
f
(
x
n
,
θ
)
(x_1,x_2,...,x_n)|\theta=f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)
(x1,x2,...,xn)∣θ=f(x1,θ)⋅f(x2,θ)⋅...⋅f(xn,θ)
所以在
θ
\theta
θ满足一定分布条件下:
(
x
1
,
x
2
,
.
.
.
,
x
n
,
θ
)
∣
θ
=
h
(
θ
)
⋅
f
(
x
1
,
θ
)
⋅
f
(
x
2
,
θ
)
⋅
.
.
.
⋅
f
(
x
n
,
θ
)
(x_1,x_2,...,x_n,\theta)|\theta=h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)
(x1,x2,...,xn,θ)∣θ=h(θ)⋅f(x1,θ)⋅f(x2,θ)⋅...⋅f(xn,θ)
所以在已知样本的观察值为
x
1
x_1
x1,
x
2
x_2
x2,
.
.
.
...
...,
x
n
x_n
xn时,记
θ
∣
x
1
,
x
2
,
.
.
.
,
x
n
\theta|_{x_1,x_2,...,x_n}
θ∣x1,x2,...,xn的条件密度函数为
h
(
θ
∣
x
⃗
)
h(\theta|\vec{x})
h(θ∣x),有:
h
(
θ
∣
x
⃗
)
=
h
(
θ
)
⋅
f
(
x
1
,
θ
)
⋅
f
(
x
2
,
θ
)
⋅
.
.
.
⋅
f
(
x
n
,
θ
)
∫
θ
h
(
θ
)
⋅
f
(
x
1
,
θ
)
⋅
f
(
x
2
,
θ
)
⋅
.
.
.
⋅
f
(
x
n
,
θ
)
d
θ
h(\theta|\vec{x})=\frac{h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)}{\int_\theta h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)d\theta}
h(θ∣x)=∫θh(θ)⋅f(x1,θ)⋅f(x2,θ)⋅...⋅f(xn,θ)dθh(θ)⋅f(x1,θ)⋅f(x2,θ)⋅...⋅f(xn,θ)
3.2 Bayes估计例子
-
设样本 x 1 x_1 x1, x 2 x_2 x2, . . . ... ..., x n x_n xn为来自总体 N ( θ , 1 ) N(\theta,1) N(θ,1),这里估计参数 θ \theta θ,又已知 θ \theta θ的先验分布为 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),利用贝叶斯估计求解: 已知 θ \theta θ分布,即:
h ( θ ) = 1 2 π σ e − ( θ − μ ) 2 2 σ 2 h(\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\theta-\mu)^2}{2\sigma^2}} h(θ)=2πσ1e−2σ2(θ−μ)2
在已知 θ \theta θ条件下,x的分布为:
f ( x , θ ) = 1 2 π e − 1 2 ( x − θ ) 2 f(x,\theta)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x-\theta)^2} f(x,θ)=2π1e−21(x−θ)2
由于 θ \theta θ是满足特定分布,( θ \theta θ在特定的值下乘以对应概率):f ( x 1 , x 2 , . . . , x n , θ ) = 1 ( 2 π ) n + 1 σ e x p { − ( θ − μ ) 2 2 σ 2 − 1 2 ∑ 1 n ( x i − θ ) 2 } f(x_1,x_2,...,x_n,\theta)=\frac{1}{(\sqrt{2\pi})^{n+1}\sigma}exp\{-\frac{(\theta-\mu)^2}{2\sigma^2}-\frac{1}{2}\sum_1^n(x_i-\theta)^2\} f(x1,x2,...,xn,θ)=(2π)n+1σ1exp{−2σ2(θ−μ)2−211∑n(xi−θ)2}
所以(分子是某一特定 θ \theta θ下的概率分布,分母是对分子在全体 θ \theta θ空间内做了积分):
h ( θ ∣ x ⃗ ) = f ( x ⃗ , θ ) f ( x ⃗ ) h(\theta|\vec{x})=\frac{f(\vec{x},\theta)}{f(\vec{x})} h(θ∣x)=f(x)f(x,θ)
= e x p { − 1 + n σ 2 2 σ 2 [ θ − μ + n σ 2 x ˉ 1 + n σ 2 ] 2 } / I =exp\{-\frac{1+n\sigma^2}{2\sigma^2}[\theta-\frac{\mu+n\sigma^2\bar{x}}{1+n\sigma^2}]^2\}/I =exp{−2σ21+nσ2[θ−1+nσ2μ+nσ2xˉ]2}/I可知,后验分布服从 N ( t , η 2 ) N(t,\eta^2) N(t,η2),其中, t = ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n) t=(nxˉ+μ/σ2)/(1/σ2+n); η 2 = 1 / ( 1 / σ 2 + n ) \eta^2=1/(1/\sigma^2+n) η2=1/(1/σ2+n)
即: θ \theta θ的分布为: N ( ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) , 1 / ( 1 / σ 2 + n ) ) N((n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n),1/(1/\sigma^2+n)) N((nxˉ+μ/σ2)/(1/σ2+n),1/(1/σ2+n))
若以 θ \theta θ的期望作为对参数 θ \theta θ的估计,这里用 θ ∗ \theta^* θ∗表示:
θ ∗ = t = ( n x ˉ + μ / σ 2 ) / ( 1 / σ 2 + n ) = n x ˉ ( 1 / σ 2 + n ) + μ / σ 2 ( 1 / σ 2 + n ) \theta^*=t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n)=\frac{n\bar{x}}{(1/\sigma^2+n)}+\frac{\mu/\sigma^2}{(1/\sigma^2+n)} θ∗=t=(nxˉ+μ/σ2)/(1/σ2+n)=(1/σ2+n)nxˉ+(1/σ2+n)μ/σ2
可见 θ ∗ \theta^* θ∗是 x ˉ \bar{x} xˉ与 μ \mu μ的加权平均,当样本量 n n n很大时,样本的权重增大,而样本量很小时,先验知识的权重增大。可见贝叶斯的优越性。但需要参数的先验概率分布,而确定先验概率分布是一件主观的事
4 | 点估计优良性准则
从矩估计例子2中可以得知,不同方法下可能得到同参数的不同估计量。所以这里要对点估计量的优良性加以讨论。即确定同一参数 θ \theta θ不同的估计量,如 θ ~ 1 \tilde\theta_1 θ~1, θ ~ 2 \tilde\theta_2 θ~2哪个更优?
4.1 估计量的无偏性
什么是无偏?
将估计量视为随机变量,去估计g总会有偏差,无偏性表示,把这些偏差在概率上平均起来,其值为0。统计分布总体中含有未知参数
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_ k
θ1,θ2,...,θk;
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为从该总体中抽出的样本,要估计
g
(
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
g(\theta_1,\theta_2,...,\theta_k)
g(θ1,θ2,...,θk),设
g
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\tilde g(x_1,x_2,...,x_n)
g~(x1,x2,...,xn)是一估计量,若对任意的
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk都有 估计值的期望等于真实值:
E
[
g
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
]
=
g
(
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
E[\tilde g(x_1,x_2,...,x_n)]=g(\theta_1,\theta_2,...,\theta_k)
E[g~(x1,x2,...,xn)]=g(θ1,θ2,...,θk)
则:
g
~
\tilde g
g~是
g
(
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
g(\theta_1,\theta_2,...,\theta_k)
g(θ1,θ2,...,θk)的一个无偏估计量。其中
E
E
E是指求数学期望时,各样本对参数进行的估计是在分布中参数为
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk时去做的。
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_ k
θ1,θ2,...,θk是流动可变的(未知参数),而求期望时是在某一特定
θ
1
,
θ
2
,
.
.
.
,
θ
k
\theta_1,\theta_2,...,\theta_k
θ1,θ2,...,θk下去计算的。这个式子表达的意思就是在特定参数下,由样本进行的估计量的期望,就等于特定参数带入方程
g
g
g计算的值。
以正态分布
N
(
θ
,
−
)
N(\theta,-)
N(θ,−)为例,样本
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为来自总体的样本,要计算
g
(
x
1
,
x
2
,
.
.
.
,
x
n
)
=
x
1
+
x
2
g(x_1,x_2,...,x_n)=x_1+x_2
g(x1,x2,...,xn)=x1+x2;当
θ
=
1
\theta=1
θ=1时,期望值为2;
θ
=
2.5
\theta=2.5
θ=2.5时,期望值为5.
无偏性证明举例
设总体分布X的方差为
σ
2
\sigma^2
σ2,
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为样本,
s
2
s^2
s2为样本方差,则
s
2
s^2
s2是
σ
2
\sigma^2
σ2的无偏估计。
证明:设
E
X
=
a
EX=a
EX=a,则
E
x
i
=
a
Ex_i=a
Exi=a;又:
∑
1
n
(
x
i
−
x
ˉ
)
2
=
∑
1
n
[
x
i
−
a
−
(
x
ˉ
−
a
)
]
2
=
∑
1
n
(
x
i
−
a
)
2
−
n
(
x
ˉ
−
a
)
2
\sum\limits_1^n(x_i-\bar x)^2=\sum\limits_1^n[x_i-a-(\bar x-a)]^2=\sum\limits_1^n(x_i-a)^2-n(\bar x-a)^2
1∑n(xi−xˉ)2=1∑n[xi−a−(xˉ−a)]2=1∑n(xi−a)2−n(xˉ−a)2
又:
n
(
x
ˉ
−
a
)
2
=
n
(
1
n
∑
1
n
(
x
i
−
a
)
)
2
=
1
n
[
∑
1
n
(
x
i
−
a
)
2
+
∑
i
!
=
j
(
x
i
−
a
)
(
x
j
−
a
)
]
n(\bar x-a)^2=n(\frac{1}{n}\sum\limits_1^n(x_i-a))^2=\frac{1}{n}[\sum\limits_1^n(x_i-a)^2+\sum\limits_{i!=j}(x_i-a)(x_j-a)]
n(xˉ−a)2=n(n11∑n(xi−a))2=n1[1∑n(xi−a)2+i!=j∑(xi−a)(xj−a)]
由
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn独立可知,
x
1
−
a
,
x
2
−
a
,
.
.
.
,
x
n
−
a
x_1-a,x_2-a,...,x_n-a
x1−a,x2−a,...,xn−a也相互独立,所以:
E
(
n
(
x
ˉ
−
a
)
2
)
=
1
n
[
n
⋅
σ
2
+
E
∑
i
!
=
j
(
x
i
−
a
)
(
x
j
−
a
)
]
=
σ
2
E(n(\bar x-a)^2)=\frac{1}{n}[n\cdot\sigma^2+E\sum\limits_{i!=j}(x_i-a)(x_j-a)]=\sigma^2
E(n(xˉ−a)2)=n1[n⋅σ2+Ei!=j∑(xi−a)(xj−a)]=σ2
所以:
E
[
∑
1
n
(
x
i
−
x
ˉ
)
2
]
=
n
σ
2
−
σ
2
=
(
n
−
1
)
σ
2
E[\sum\limits_1^n(x_i-\bar x)^2]=n\sigma^2-\sigma^2=(n-1)\sigma^2
E[1∑n(xi−xˉ)2]=nσ2−σ2=(n−1)σ2
所以:
E
s
2
=
σ
2
Es^2=\sigma^2
Es2=σ2
这里对 ∑ 1 n ( x i − a ) 2 \sum\limits_1^n(x_i-a)^2 1∑n(xi−a)2求期望是在方差 σ \sigma σ下,也即样本是在方差 σ \sigma σ下的样本,对其求期望就等于 n σ 2 n\sigma^2 nσ2,当a为已知时则需要用 1 n ∑ 1 n ( x i − a ) 2 \frac{1}{n}\sum\limits_1^n(x_i-a)^2 n11∑n(xi−a)2作为无偏估计量,而不是用 1 n ∑ 1 n ( x i − x ˉ ) 2 \frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2 n11∑n(xi−xˉ)2
虽然 E s 2 = σ 2 Es^2=\sigma^2 Es2=σ2,即 s 2 s^2 s2是 σ 2 \sigma^2 σ2的无偏估计,但 s s s并不是 σ \sigma σ的无偏估计。因为 D s = E s 2 − ( E s ) 2 > = 0 Ds=Es^2-(Es)^2>=0 Ds=Es2−(Es)2>=0,又 E s 2 = σ 2 Es^2=\sigma^2 Es2=σ2,所以: E s < = σ Es<=\sigma Es<=σ即 s s s去估计 σ \sigma σ总是系统性偏低。通常引入一个因子 c n c_n cn使得 c n s c_ns cns是 σ \sigma σ的无偏估计。
4.2 数量指标—均方误差
什么是均方误差
设样本
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为来自统计总体的样本服从
f
(
x
,
θ
)
f(x,\theta)
f(x,θ),要估计
θ
\theta
θ采用统计量
θ
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\tilde\theta(x_1,x_2,...,x_n)
θ~(x1,x2,...,xn)作为
θ
\theta
θ的估计量,定义
M
θ
~
(
θ
)
M_{\tilde\theta}(\theta)
Mθ~(θ):
M
θ
~
(
θ
)
=
E
θ
[
θ
~
(
x
1
,
x
2
,
.
.
.
,
x
n
)
−
θ
]
2
M_{\tilde\theta}(\theta)=E_\theta[\tilde\theta(x_1,x_2,...,x_n)-\theta]^2
Mθ~(θ)=Eθ[θ~(x1,x2,...,xn)−θ]2
称
M
θ
~
(
θ
)
M_{\tilde\theta}(\theta)
Mθ~(θ)为
θ
~
\tilde\theta
θ~的均方误差,此值越小越优。
均方误差让估计更优良
例如
N
(
μ
,
σ
2
)
N(\mu,\sigma^2)
N(μ,σ2);
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为样本,
θ
~
1
=
x
ˉ
\tilde\theta_1=\bar x
θ~1=xˉ以及
θ
~
2
=
x
1
\tilde\theta_2=x_1
θ~2=x1均为
μ
\mu
μ的无偏估计量,但:
M
θ
~
1
(
μ
)
=
E
μ
(
x
ˉ
−
μ
)
=
σ
2
/
n
M_{\tilde\theta_1}(\mu)=E_\mu(\bar x-\mu)=\sigma^2/n
Mθ~1(μ)=Eμ(xˉ−μ)=σ2/n,
M
θ
~
2
(
μ
)
=
σ
2
M_{\tilde\theta_2}(\mu)=\sigma^2
Mθ~2(μ)=σ2,结合此指标,
x
ˉ
\bar x
xˉ更优
注意:无法找到一个估计量使之优于其他任意估计量,就像不能找到一个最小的正数使之都小于其他正数(无穷小不算数)。但能尽可能寻找使均方误差最小的估计量。(最小方差无偏估计)
M
θ
~
(
θ
)
=
E
(
θ
~
−
θ
)
2
=
E
(
θ
~
−
E
θ
~
+
E
θ
~
−
θ
)
2
=
v
a
r
θ
~
+
(
E
θ
~
−
θ
)
2
M_{\tilde\theta}(\theta)=E(\tilde\theta-\theta)^2=E(\tilde\theta-E\tilde\theta+E\tilde\theta-\theta)^2=var\tilde\theta+(E\tilde\theta-\theta)^2
Mθ~(θ)=E(θ~−θ)2=E(θ~−Eθ~+Eθ~−θ)2=varθ~+(Eθ~−θ)2
当为无偏时,均方误差就时估计量本身的方差
M
θ
~
(
θ
)
=
v
a
r
θ
~
M_{\tilde\theta}(\theta)=var\tilde\theta
Mθ~(θ)=varθ~,估计量方差越小,均方误差指标越小,也很好理解,又无偏(无偏不等于没有偏差,而是偏差期望为被估计参数本身,也就是基于参数本身左偏右偏抵消),两侧的偏离量又小,说明估计准确
均匀分布看如何选取最优估计量
设
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn为来自总体X服从
U
[
0
,
θ
]
U[0,\theta]
U[0,θ],已知
θ
~
1
=
2
x
ˉ
\tilde\theta_1=2\bar x
θ~1=2xˉ(通过矩估计得到);以及
θ
~
2
=
n
+
1
n
x
(
n
)
\tilde\theta_2=\frac{n+1}{n}x_{(n)}
θ~2=nn+1x(n)(由极大似然估计法得到)为
θ
\theta
θ的两个无偏估计量,现比较方差大小。
先说明
θ
~
2
=
n
+
1
n
x
(
n
)
\tilde\theta_2=\frac{n+1}{n}x_{(n)}
θ~2=nn+1x(n)如何得到:
由极大似然估计发构造似然方程:
L
(
x
1
,
x
2
,
.
.
.
,
x
n
,
θ
)
=
1
θ
n
L(x_1,x_2,...,x_n,\theta)=\frac{1}{\theta^n}
L(x1,x2,...,xn,θ)=θn1
显然,为找到
θ
~
\tilde\theta
θ~使得
L
(
x
1
,
x
2
,
.
.
.
,
x
n
,
θ
)
L(x_1,x_2,...,x_n,\theta)
L(x1,x2,...,xn,θ)为最小,只要
θ
\theta
θ最小,而
θ
\theta
θ又是大于等于
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn的值,因此,只要
θ
~
=
x
(
n
)
\tilde\theta=x_{(n)}
θ~=x(n),即:
θ
\theta
θ的极大似然估计量为
x
(
n
)
x_{(n)}
x(n)
但此时
x
(
n
)
x_{(n)}
x(n)估计
θ
\theta
θ偏低,可以求一系数
c
n
c_n
cn使得
c
n
x
(
n
)
c_nx_{(n)}
cnx(n)为
θ
\theta
θ的无偏估计量。总体分布的密度函数为:
f
(
x
,
θ
)
=
1
/
θ
f(x,\theta)=1/\theta
f(x,θ)=1/θ;
分布函数为:
F
(
x
,
θ
)
=
1
,
x
>
=
θ
;
x
/
θ
,
0
<
=
x
<
=
θ
;
0
,
x
<
0
F(x,\theta)=1,x>=\theta;x/\theta,0<=x<=\theta;0,x<0
F(x,θ)=1,x>=θ;x/θ,0<=x<=θ;0,x<0
则
x
(
n
)
x_{(n)}
x(n)的分布函数为:
G
(
x
,
θ
)
=
1
,
x
>
=
θ
;
x
n
/
θ
n
,
0
<
=
x
<
=
θ
;
0
,
x
<
0
G(x,\theta)=1,x>=\theta;x^n/\theta^n,0<=x<=\theta;0,x<0
G(x,θ)=1,x>=θ;xn/θn,0<=x<=θ;0,x<0
所以:
E
(
x
(
n
)
)
=
n
n
+
1
θ
E(x_{(n)})=\frac{n}{n+1}\theta
E(x(n))=n+1nθ
所以:
E
(
n
+
1
n
x
(
n
)
)
=
θ
E(\frac{n+1}{n}x_{(n)})=\theta
E(nn+1x(n))=θ
即
n
+
1
n
x
(
n
)
\frac{n+1}{n}x_{(n)}
nn+1x(n)是
θ
\theta
θ的无偏估计量。现讨论两个无偏估计量的方差:
对
θ
~
1
=
2
x
ˉ
\tilde\theta_1=2\bar x
θ~1=2xˉ易知:
v
a
r
(
θ
~
1
)
=
v
a
r
(
2
x
ˉ
)
=
θ
2
3
n
var(\tilde\theta_1)=var(2\bar x)=\frac{\theta^2}{3n}
var(θ~1)=var(2xˉ)=3nθ2
又:
v
a
r
(
x
(
n
)
)
=
E
(
x
(
n
)
2
)
−
(
E
(
x
(
n
)
)
2
)
=
n
n
+
2
θ
2
−
n
2
(
n
+
1
)
2
θ
2
=
n
(
n
+
2
)
(
n
+
1
)
2
θ
2
var(x_{(n)})=E(x_{(n)}^2)-(E(x_{(n)})^2)=\frac{n}{n+2}\theta^2-\frac{n^2}{(n+1)^2}\theta^2=\frac{n}{(n+2)(n+1)^2}\theta^2
var(x(n))=E(x(n)2)−(E(x(n))2)=n+2nθ2−(n+1)2n2θ2=(n+2)(n+1)2nθ2
因此 :
v
a
r
(
θ
~
2
)
=
(
n
+
1
)
2
n
2
v
a
r
(
x
(
n
)
)
=
1
n
(
n
+
2
)
θ
2
<
=
v
a
r
θ
~
1
var(\tilde\theta_2)=\frac{(n+1)^2}{n^2}var(x_{(n)})=\frac{1}{n(n+2)}\theta^2<=var\tilde\theta_1
var(θ~2)=n2(n+1)2var(x(n))=n(n+2)1θ2<=varθ~1
说明
θ
~
2
\tilde\theta_2
θ~2对
θ
\theta
θ的估计优于
θ
~
1
\tilde\theta_1
θ~1
寻找最小方差无偏估计