依据样本推出总体分布的参数,方法有两种:矩估计和极大似然估计。
参数估计的形式有:点估计和区间估计。
点估计:构造合适的统计量
θˆ=θˆ(X1,X2,...Xn)
用来估计未知参数
θ
,
θˆ
称为参数
θ
的点估计量。
当给定样本观察值
x1,x2,...xn
时,
θˆ(x1,x2,...xn)
称为参数
θ
的点估计值。
矩估计
矩估计:用样本矩估计总体矩,用样本矩的函数估计总体矩的函数。
理论依据:辛钦大数定理、依概率收敛的性质
矩的概念参见这里。
矩估计步骤
设总体的k个未知参数为
θ1...θk
,
X1,...Xn
样本来自总体X,假设总体的前k阶矩存在。
1 建立总体分布的参数与总体矩之间的关系:
μi=E(Xi)=hi(θ1...θk),i=1,2...k
2 求各参数关于k阶矩的反函数:
θi=gi(μ1...μk)
,i=1,2…k
3 以样本各阶矩
A1,A2..Ak
代替总体X的各阶矩
μ1...μk
,得到各参数的矩估计:
θˆ=gi(A1,A2...Ak),i=1,2...k
。
在实际应用中,使用中心距也可以。
矩估计不涉及总体分布。
极大似然估计
从这里开始
极大似然是这样开始的。如果瓶子里有黑球和白球,已知有一种球概率是
34
,但不知道具体是哪种球。采用放回抽样做了一次试验,取了5个球。这5个球的观察结果分别为黑、白、黑、黑、黑。估计一下黑球的概率。
设
X={1,取到黑球0,取到白球
,则X~B(1,p)。p为黑球的概率。p的可能取值是
p=14
,
p=34
。抽取容量为5的样本
X1,X2,...X5
,观察值为1,0,1,1,1。
当
p=14
,出现本次观察结果的概率是
(14)434=31024
。
当
p=34
,出现本次观察结果的概率是
(34)414=811024
。
811024>31024
,所以
p=34
更有可能。于是
p^=34
。
说明两点。
1 这个容量为n的样本,是服从B(n,p),p是未知参数。依据这个样本出现概率最大的时候,p的取值,作为p的估计值,叫做
p^
。
2 因为样本是独立抽样,所以样本出现最大概率表示为
∏ni=nP(Xi)
,每个事件发生概率的乘积,称为似然函数。
依据这两点,推广为一般的定义。
极大似然定义
设离散型总体X~
p(x;θ)
,
θ∈
一个定义域。
X1,X2,...Xn
为样本,观察值为
x1,x2,...xn
,则事件{
X1=x1,X2=x2...Xn=xn
}发生的概率为似然函数:
L(θ)=∏ni=1p(xi;θ)
。
极大似然原理:
L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)
。当似然函数取得最大值时候的参数
θ
,就是未知参数
θ
的估计值。
θ^(x1,x2...xn)
称为
θ
的极大似然估计值。相应的统计量
θ^(X1,X2..Xn)
称为
θ
的极大似然估计量(MLE)。
设连续型总体X概率密度函数为
f(x;θ)
,
θ∈
一个定义域。
X1,X2,...Xn
为样本,观察值为
x1,x2,...xn
,则样本在观察值领域发生的概率为似然函数:
L(θ)=∏ni=1f(xi;θ)
。
极大似然原理:
L(θ^(x1,x2...xn))=maxθ∈rangeL(θ)
。当似然函数取得最大值时候的参数
θ
,就是未知参数
θ
的估计值。
说明:
1 未知参数可能不是一个,设为
θ=(θ1,θ2...θn)
。
2 求
L(θ)
的最大值时,可转换为求
lnL(θ)
的最大值,
lnL(θ)
称为对数似然函数。利用偏微分解得
θ^i
,i=1,2…k。
3 若
L(θ)
是关于某个
θi
的单调递增(减)函数,则
θi
的极大似然估计为
θi
的最大(小)值(与样本有关)。
4 若
θ^
是
θ
的极大似然估计,则
g(θ)
的极大似然估计为
g(θ^)
。
极大似然估计步骤
1 找到分布律或者概率密度函数。
2 写出极大似然函数
L(θ)
。
3 观察
L(θ)
是关于未知变量的单调函数吗?如果是,则根据单调性找到
L(θ)
取最大值时候的参数值。如果不是,判断函数对未知变量是否容易求导,选择是直接对原函数求导还是先求对数再求导。导函数为0的点就是参数的估计值。
比较
比较项 | 矩估计 | 极大似然估计 |
---|---|---|
原理 | 辛钦大数定理;依概率收敛的性质 | 样本出现概率最大 |
计算方法 | 联立方程组;有几个变量需要几个方程 | 微分/偏微分 |
特点 | 与分布无关,计算矩或者中心矩 | 根据分布函数或者概率密度函数建立似然函数 |
条件 | 需要k阶矩存在 | 需要似然函数的导函数存在或者具有单调性 |
估计量的评价准则
无偏性准则
若参数
θ
的估计量
θ^(X1,X2...Xn)
,满足
E(θ^)=θ
,则称
θ^
是
θ
的无偏估计量。
若
E(θ^)≠θ
,则
|E(θ^)−θ|
称为估计量
θ^
的偏差。
若
limn−>+∞E(θ^)=θ
,则称
θ^
是
θ
的渐进无偏估计量。
无偏估计量的统计意义是指在大量重复试验下,由
θ^(X1,X2...Xn)
给出的估计平均恰是
θ
。从而保证了
θ^
没有系统误差。
纠偏方法
如果
E(θ^)=aθ+b
,其中a,b是常数,且
ane0
,则
1a(θ^−b)
是
θ
的无偏估计。
B2=n−1nS2
有效性准则
定义
设
θ^1,θ^2
是
θ
的两个无偏估计,如果
D(θ^1)≤D(θ^2)
,对一切定义域的
θ
都成立,且不等号至少对定义域内的某一个
θ
成立,则称
θ^1
比
θ^2
有效。
方差较小的估计量是一个更有效的估计量。
均方误差准则
设
θ^
是
θ
的点估计,且方差存在,则称
E(θ^−θ)2
是
θ^
的均方误差,记为Mse(
θ^
)。
若
θ^
是
θ
的无偏估计,则有
Mse(θ^)=D(θ^)
。
设
θ^1,θ^2
是
θ
的点估计,如果
Mse(θ^1)<Mse(θ^2)
,对定义域内的
θ
都成立,则称在均方误差准则下,
θ^1
要优于
θ^2
。
相合性准则
设
θ^(X1,X2...Xn)
为参数
θ
的估计量,若对于任意定义域内的
θ
,当
n−>+∞
,
θ^n
依概率收敛于
θ
,则称
θ^n
为
θ
的相合估计量或一致估计量。
也就是说:对
∀ε>0
,有
limn−>+∞P{|θ^−θ|≥ε}=0
成立。
总结
四个准则分别从期望、方差、差平方的期望、极限四个角度做了评价。简单概括是:无偏性: E(θ^)=θ ;有效性: D(θ^) 尽可能小;均方误差准则: E(θ^−θ)2 尽可能小;相合性准则: limn−>+∞P{|θ^−θ|≥ε}=0
练习
1 对于任何分布,
E(X¯¯¯)=E(X)
:样本均值的数学期望等于总体的数学期望;
E(S2)=D(X)
:样本方差的数学期望等于总体的方差。
2
E[(X−c)2]=D(X)+(E(X)−c)2
3
D(X)=E(X2)−[E(X)]2