参数估计
在数理统计中,我们见到的总体X一般都是未知的。
即便根据以往的经验和数据,知道X服从哪类分布,,其数字特征(数学期望,方差,矩)也是未知的。
这些未知的数字特征以及含在总体X中的未知数称为 未知参数 未 知 参 数 简称参数
为了估计未知参数的真值或其所在区间,就要从总体X中抽取样本,然后用样本构造某种统计量,来估计未知参数或其范围。
这种方法叫 参数估计 参 数 估 计
参数估计有很多方法
主要又 点估计 点 估 计 和 点区间估计 点 区 间 估 计 两大类
点估计
点估计就是根据样本构造一个统计量(称为估计量)来估计总体的真实参数值(参数真值)。
如,第五章的独立同分布大数定律,样本均值将依概率收敛到总体X的数学期望
X⎯⎯⎯⎯−→Pμ X ¯ → P μ
当样本较大时,就可以用样本均值来作为总体的数学期望 μ μ 的估计
从一批灯泡中随机获取10个进行寿命试验。用样本均值来估计这批灯泡寿命
得到这批灯泡平均寿命 x⎯⎯⎯=110∑i=110xi x ¯ = 1 10 ∑ i = 1 10 x i
以上用一个数(点)来估计某个未知参数的方法叫点估计法。
定义
设总体X的分布函数F(x; θ θ )的形式已知, θ θ 是未知参数。从总体X中抽取样本 X1,X2,…,Xn X 1 , X 2 , … , X n 构造某个统计量
θ̂ (X1,X2,…,Xn) θ ^ ( X 1 , X 2 , … , X n )
作为对未知参数 θ θ 的估计,称为 θ θ 的点估计量。
估计量和估计值统称为估计。
显然,对于不同样本值 x1,x2,…,xn x 1 , x 2 , … , x n ,得到的点估计值一般是不同的。
矩估计法
矩估计法思想
据估计法的想法是用样本的各阶矩去近似代替总体的各阶矩。
矩估计法的理论依据是大数定理。
独立同分布大数定理告诉我们:
样本均值依概率收敛与总体均值(数学期望)
X⎯⎯⎯⎯−→Pμ X ¯ → P μ
同理, Xk1,Xk2,…,Xkn X 1 k , X 2 k , … , X n k 相互独立,且与 Xk X k 同分布有
E(Xk1)=E(Xk2)=…=E(Xkn)=E(Xk)=μk E ( X 1 k ) = E ( X 2 k ) = … = E ( X n k ) = E ( X k ) = μ k
再利用大树定理的
Ak=1n∑i=1nXki−→Pμk=E(Xk) A k = 1 n ∑ i = 1 n X i k → P μ k = E ( X k )
样本k阶矩依概率收敛于总体k阶矩。
矩估计法就是用已知样本矩代替未知的总体矩。
矩估计法过程
设X为连续性随机变量,其概率密度为
f(x; θ1,…θn θ 1 , … θ n )
或者X为离散型随机变量,其分布律为
P{X=x}=p(x; θ1,…θn θ 1 , … θ n )
其中 θ1,…θn θ 1 , … θ n 为待估参数, X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体的样本。
(1)计算总体X的1~k阶矩:
μk=E(Xk)=∫+∞−∞xkf(x;θ1,…θn)dx μ k = E ( X k ) = ∫ − ∞ + ∞ x k f ( x ; θ 1 , … θ n ) d x 连续性
μk=E(Xk)=∑x∈RXxkp(x;θ1,…θn) μ k = E ( X k ) = ∑ x ∈ R X x k p ( x ; θ 1 , … θ n ) 离散型
得方程组
(2) 从方程组中解出未知参数
(3)根据大数定理 Ak=1n∑i=1nXki−→Pμk=E(Xk) A k = 1 n ∑ i = 1 n X i k → P μ k = E ( X k ) 用样本矩 Al A l 分布代替总体矩 μl μ l ,得待估参数的矩估计量
有一个未知参数过程
如果只有一个未知参数 θ θ ,只需求出总体X的一阶矩,即数学期望 μ=E(X) μ = E ( X ) ,得 μ=h(θ) μ = h ( θ ) ,然后解出 θ=h−1(μ) θ = h − 1 ( μ ) ,最后用样本一阶矩(样本均值)
A1=X⎯⎯⎯⎯=1n∑i=1nXi A 1 = X ¯ = 1 n ∑ i = 1 n X i 代替 μ μ ,得 θ θ 的据估计量 θ̂ =h−1X⎯⎯⎯⎯ θ ^ = h − 1 X ¯
或
(1)计算: E(X)=h(θ) E ( X ) = h ( θ )
(2)替换: E(X)→X⎯⎯⎯⎯ E ( X ) → X ¯ , θ→θ̂ θ → θ ^ 得 X⎯⎯⎯⎯=h(θ̂ ) X ¯ = h ( θ ^ )
(3)解出: θ̂ =h−1X⎯⎯⎯⎯ θ ^ = h − 1 X ¯
##### 例子
已知总体X有概率密度
其中 θ θ 为未知参数。 X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的样本。
(1)求 θ θ 的矩估计量 θ̂ θ ^
只有一个未知参数,先求总体X的一阶矩
μ1=E(X)=∫+∞−∞xkf(x;θ)dx=∫θ0x6x(θ−x)θ3dx=6θ3∫θ0(θx2−x3)dx=6θ3(θ43−θ44)=θ2 μ 1 = E ( X ) = ∫ − ∞ + ∞ x k f ( x ; θ ) d x = ∫ 0 θ x 6 x ( θ − x ) θ 3 d x = 6 θ 3 ∫ 0 θ ( θ x 2 − x 3 ) d x = 6 θ 3 ( θ 4 3 − θ 4 4 ) = θ 2
解出待估参数: θ=2μ1 θ = 2 μ 1
用样本一阶矩 A1 A 1 代替 μ1 μ 1
的 θ θ 的据估计量 θ̂ =2A1=2X⎯⎯⎯⎯=2n∑i=1nXi θ ^ = 2 A 1 = 2 X ¯ = 2 n ∑ i = 1 n X i
(2)求 θ̂ θ ^ 的方差D( θ̂ θ ^ )
用到公式 D(X⎯⎯⎯⎯)=σ2n=D(X)n D ( X ¯ ) = σ 2 n = D ( X ) n D(X)=E( X2 X 2 )- [E(X)]2 [ E ( X ) ] 2
E( X2 X 2 )= 6θ220 6 θ 2 20
D(θ̂ )=D(2X⎯⎯⎯⎯)=22D(X⎯⎯⎯⎯)=4D(X)n=4n[6θ220−(θ22)2]=θ25n D ( θ ^ ) = D ( 2 X ¯ ) = 2 2 D ( X ¯ ) = 4 D ( X ) n = 4 n [ 6 θ 2 20 − ( θ 2 2 ) 2 ] = θ 2 5 n
(3)若3.5,4.4,5.3,4.6,4.8,3.7,5.8,3.9为一组样本观测值,求 θ θ 的矩估计
θ̂ =28∑i=18Xi=14(3.5+4.4+..+3.9)=9 θ ^ = 2 8 ∑ i = 1 8 X i = 1 4 ( 3.5 + 4.4 + . . + 3.9 ) = 9
概率密度为
两个 未知参数过程
如果有两个未知参数 μ μ 和 λ λ ,则需要求出总体X的一阶矩 μ1=E(X) μ 1 = E ( X ) 和二阶矩 μ2=E(X2)=D(X)+[E(X)]2 μ 2 = E ( X 2 ) = D ( X ) + [ E ( X ) ] 2 得 μ1=h(θ,λ),μ2=g(θ,λ) μ 1 = h ( θ , λ ) , μ 2 = g ( θ , λ )
然后解出 θ=ϕ(μ1,mu2),λ=ψ(μ1.μ2) θ = ϕ ( μ 1 , m u 2 ) , λ = ψ ( μ 1 . μ 2 )
最后用样本一阶矩A1和样本二阶矩A2代替 μ1,μ2 μ 1 , μ 2 得 θ,λ θ , λ 的据估计量
θ̂ =φ(A1,A2) θ ^ = φ ( A 1 , A 2 )
μ̂ =ψ(A1,A2) μ ^ = ψ ( A 1 , A 2 )
A1=X⎯⎯⎯⎯=1n∑i=1nXi A 1 = X ¯ = 1 n ∑ i = 1 n X i
A2=X⎯⎯⎯⎯=1n∑i=1nX2i A 2 = X ¯ = 1 n ∑ i = 1 n X i 2
例子
设总体X的均值 μ μ 且方差 σ2 σ 2 >0都存在,但它们均未知。设 X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的样本,试求 μ μ 和 σ2 σ 2 的据估计量。
总体X的一阶二阶矩为
μ1 μ 1 =E(X)= μ μ
μ2=E(X2)=D(X)+[E(X)2]=σ2+μ2 μ 2 = E ( X 2 ) = D ( X ) + [ E ( X ) 2 ] = σ 2 + μ 2
的 μ=μ1,σ2=μ2−μ21 μ = μ 1 , σ 2 = μ 2 − μ 1 2
用样本一阶矩A1和样本二阶矩A2分别代替总体一阶矩 μ1 μ 1 和总体二阶矩 μ2 μ 2
得到 μ μ 和 σ2 σ 2 的据估计量
μ̂ =A1=X⎯⎯⎯⎯=1n∑i=1nXi μ ^ = A 1 = X ¯ = 1 n ∑ i = 1 n X i
σ̂ 2=A2−A21=1n∑i=1nX2i−X⎯⎯⎯⎯2=1n∑i=1n(Xi−X⎯⎯⎯⎯)2 σ ^ 2 = A 2 − A 1 2 = 1 n ∑ i = 1 n X i 2 − X ¯ 2 = 1 n ∑ i = 1 n ( X i − X ¯ ) 2
定理
不论总体X服从什么分布,只要E(X)= μ μ 和D(X)= σ2 σ 2 >0存在但未知。设 X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的样本,则 μ μ 和 σ2 σ 2 的据估计量为
μ̂ =X⎯⎯⎯⎯=1n∑i=1nXi μ ^ = X ¯ = 1 n ∑ i = 1 n X i
σ̂ 2=B2=1n∑i=1n(Xi−X⎯⎯⎯⎯)2 σ ^ 2 = B 2 = 1 n ∑ i = 1 n ( X i − X ¯ ) 2
因此,我们常用样本均值和样本二阶中心矩在近似估计总体均值和总体方差。
μ=E(X)≈1n∑i=1nXi μ = E ( X ) ≈ 1 n ∑ i = 1 n X i
σ2≈1n∑i=1n(Xi−X⎯⎯⎯⎯)2 σ 2 ≈ 1 n ∑ i = 1 n ( X i − X ¯ ) 2
例子
设使用仪器对一批零件的尺子进行12次独立测量,测试数据如下
120.50 120.52 120.15 120.41 120.31 121.02 120.14 121.21 120.87 121.01 120.10 120.42
使用矩估计法估计总体的均值和方差。
μ̂ =X⎯⎯⎯⎯=112∑i=112Xi=120.5575 μ ^ = X ¯ = 1 12 ∑ i = 1 1 2 X i = 120.5575
σ̂ 2=B2=112∑i=112(Xi−X⎯⎯⎯⎯)2=112∑i=112X2i−X⎯⎯⎯⎯2=0.1329 σ ^ 2 = B 2 = 1 12 ∑ i = 1 1 2 ( X i − X ¯ ) 2 = 1 12 ∑ i = 1 1 2 X i 2 − X ¯ 2 = 0.1329
另一种计算方法
(1)计算: E(X)=h(θ,λ),D(XZ)=g(θ,λ) E ( X ) = h ( θ , λ ) , D ( X Z ) = g ( θ , λ )
(2)替换: E(X)→X⎯⎯⎯⎯,D(X)→B2 E ( X ) → X ¯ , D ( X ) → B 2
θ→θ̂ ,λ→λ̂ θ → θ ^ , λ → λ ^
得 X⎯⎯⎯⎯=h(θ̂ ,λ̂ )B2=g(θ̂ ,λ̂ ) X ¯ = h ( θ ^ , λ ^ ) B 2 = g ( θ ^ , λ ^ )
(3)解出: θ̂ =φ(X⎯⎯⎯⎯,B2)λ̂ =ψ(X⎯⎯⎯⎯,B2) θ ^ = φ ( X ¯ , B 2 ) λ ^ = ψ ( X ¯ , B 2 )
均匀分布的参数估计
设总体X在区间[a,b]上服从均匀分布,a,b为未知参数。 X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的样本,试求a,b的据估计量。
解 X~U(a,b) E(X)=1/2(a+b),D(X)= 1/12(b−a)2 1 / 12 ( b − a ) 2
先求总体X的一阶矩和二阶矩
μ1 μ 1 =E(X)= 12(a+b) 1 2 ( a + b )
μ2=E(X2)=D(X)+[E(X)2]=112(b−a)2+(a+b2)2 μ 2 = E ( X 2 ) = D ( X ) + [ E ( X ) 2 ] = 1 12 ( b − a ) 2 + ( a + b 2 ) 2
解出待估参数a,b
a+b=2μ1 a + b = 2 μ 1
112(b−a)2=μ2−μ1 1 12 ( b − a ) 2 = μ 2 − μ 1
a= μ1−3(μ2−μ21)‾‾‾‾‾‾‾‾‾‾√ μ 1 − 3 ( μ 2 − μ 1 2 )
b= 2μ1−a=μ1+3(μ2−μ21)‾‾‾‾‾‾‾‾‾‾√ 2 μ 1 − a = μ 1 + 3 ( μ 2 − μ 1 2 )
用A1和A2分布替代总体一阶矩和二阶矩
â =A1−3(A2−A21)‾‾‾‾‾‾‾‾‾‾√ a ^ = A 1 − 3 ( A 2 − A 1 2 )
b̂ =A1+3(A2−A21)‾‾‾‾‾‾‾‾‾‾√ b ^ = A 1 + 3 ( A 2 − A 1 2 )
A1=1n∑i=1nXi A 1 = 1 n ∑ i = 1 n X i
A2=1n∑i=1nX2i A 2 = 1 n ∑ i = 1 n X i 2
A2−A21=1n∑i=1n(Xi−X⎯⎯⎯⎯)2=B2 A 2 − A 1 2 = 1 n ∑ i = 1 n ( X i − X ¯ ) 2 = B 2
得a,b的据估计量
â =X⎯⎯⎯⎯−3n∑i=1n(Xi−X⎯⎯⎯⎯)2‾‾‾‾‾‾‾‾‾‾‾‾‾√ a ^ = X ¯ − 3 n ∑ i = 1 n ( X i − X ¯ ) 2
b̂ =X⎯⎯⎯⎯+3n∑i=1n(Xi−X⎯⎯⎯⎯)2‾‾‾‾‾‾‾‾‾‾‾‾‾√ b ^ = X ¯ + 3 n ∑ i = 1 n ( X i − X ¯ ) 2
若有容量为10的样本可以带入公式得到结果
若有100个样本,则分别根接近最小值和最大值。
二项分布的参数估计
设总体X服从参数N,p的二项分布
X~b(N,p)N与p未知, X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的样本,试求N,p的矩估计量。
X~b(N,p)=>E(X)=Np,D(X)=Np(1-p)
用A1B2分别代替E(X)和D(X)得
N̂ p̂ =A1N̂ p̂ (1−p̂ )=B2 N ^ p ^ = A 1 N ^ p ^ ( 1 − p ^ ) = B 2
A1(1−p̂ )=B2 A 1 ( 1 − p ^ ) = B 2
1−p̂ =B2A1 1 − p ^ = B 2 A 1
p̂ =1−B2A1=1−B2X⎯⎯⎯⎯ p ^ = 1 − B 2 A 1 = 1 − B 2 X ¯
N̂ =A1p̂ =A11−B2A1=A21A1−B2=X⎯⎯⎯⎯2X⎯⎯⎯⎯−B2 N ^ = A 1 p ^ = A 1 1 − B 2 A 1 = A 1 2 A 1 − B 2 = X ¯ 2 X ¯ − B 2
最大似然估计法 MLE
最大似然原理
假设一个随机试验E有若干可能的结果 A1,A2,… A 1 , A 2 , … 。如果只进行了一次试验,而结果Ak出现了,那么我们就有理由认为试验的条件对结果Ak的出现最有利,即试验E出现的结果Ak的概率最大。
如果有白球和黑球,并且已知两种颜色的球的比例为8:2,但不知道哪个球多。
如果有放回的从袋中取两次球,每次取一个,结果两次都取到黑球,那么我们有理由认为黑球占80%。
因为若黑球80%,则两次都取到黑球概率为 0.82=0.64 0.8 2 = 0.64
如果黑球只占20%,则两次都取到黑球的概率为 0.22=0.04 0.2 2 = 0.04
因此,两次都取到黑球对我们判断黑球占80%有利。
最大似然法的基本思想就是:
对于已经出现的样本值 x1,x2,…,xn x 1 , x 2 , … , x n ,适当的选取参数 θ θ ,使试验得出结果 X1=x1,X2=x2,…,Xn=xn X 1 = x 1 , X 2 = x 2 , … , X n = x n 的概率最大。
最大似然估计法的模型
离散型
设总体X为离散型随机变量,其分布律为
P{X=x}=p(x; θ θ )
其中 θ θ 是未知参数, X1,X2,…,Xn X 1 , X 2 , … , X n 为来自总体X的样本, x1,x2,…,xn x 1 , x 2 , … , x n 为其一组样本值。记
L(θ)=p{X1=x1,X2=x2,…,Xn=xn} L ( θ ) = p { X 1 = x 1 , X 2 = x 2 , … , X n = x n } 独立性
=P{X1=x1}{X2=x2}…P{Xn=xn} = P { X 1 = x 1 } { X 2 = x 2 } … P { X n = x n }
=∏i=1nP{Xi=xi}=∏i=1np(xi;θ) = ∏ i = 1 n P { X i = x i } = ∏ i = 1 n p ( x i ; θ )
L(θ) L ( θ ) 称为样本 x1,x2,…,xn x 1 , x 2 , … , x n 的似然函数Likelihood function 因为样本已知常数,所以是一元函数。
由于 L(θ) L ( θ ) 事件 X1=x1,X2=x2,…,Xn=xn X 1 = x 1 , X 2 = x 2 , … , X n = x n 的概率,由最大似然估计法的思想,我们希望求这样的 θ̂ θ ^ 使得 L(θ̂ ) L ( θ ^ ) 达到 L(θ) L ( θ ) 的最大值,即
L(θ̂ )=maxθ∈ΘL(θ) L ( θ ^ ) = max θ ∈ Θ L ( θ ) 其中 Θ是θ Θ 是 θ 的取值范围。
连续性
如果X为连续型随机变量,其概率密度为
f(x;θ)(θ∈Θ) f ( x ; θ ) ( θ ∈ Θ )
则样本 x1,x2,…,xn x 1 , x 2 , … , x n 所对应的似然函数为:
L(θ)=∏i=1nf(xi;θ) L ( θ ) = ∏ i = 1 n f ( x i ; θ )
如何求似然函数的最大值点 θ̂ θ ^ ?
在很多情况下,函数p(x; θ θ )或f(x; θ θ )是可导函数,此时我们可以用微积分求 L(θ) L ( θ ) 的最大值点 θ̂ θ ^ 。求似然函数的驻点(导数为0的点)。
由于似然函数是n个函数的乘积,直接求导不方便,对数求导发求其最大值点。
最大似然估计法步骤
(1)构造似然函数
L(θ)=∏i=1np(xi;θ) L ( θ ) = ∏ i = 1 n p ( x i ; θ ) 离散型总体 或
L(θ)=∏i=1nf(xi;θ) L ( θ ) = ∏ i = 1 n f ( x i ; θ ) 连续性总体
(2)取对数
lnL(θ)=∑i=1nlnf(xi;θ) ln L ( θ ) = ∑ i = 1 n ln f ( x i ; θ )
(3)求导,令导数为0,得到驻点一般就是似然函数的最大值点,也就是要求的未知参数 θ θ 的估计量。
如果驻点不存在,则另行分析。
对数求导法:
y=f(x)其两边先取对数lny=lnf(x) [f(x)>0],在同时求导 f′(x)f(x)=(lny)′ f ′ ( x ) f ( x ) = ( l n y ) ′ ,就得到结果f’(x)=f(x)(lny)’
例子
设总体X服从0-1分布,即X~b(1,p), X1,X2,…,Xn X 1 , X 2 , … , X n 是来自总体X的一个样本,试求参数p的矩估计量和最大似然估计量。
先求p的矩估计量
μ1=E(X)=p μ 1 = E ( X ) = p 用样本均值代替总体均值E(X),
的p的矩估计量: p̂ =X⎯⎯⎯⎯ p ^ = X ¯
求p的最大似然估计量
P{X=x}= px(1−p)1−px=0,1 p x ( 1 − p ) 1 − p x = 0 , 1
设 x1,x2,…,xn x 1 , x 2 , … , x n 是给定的样本值
对应的似然函数
L(p)=∏i=1npxi(1−p)1−xi(0<p<1) L ( p ) = ∏ i = 1 n p x i ( 1 − p ) 1 − x i ( 0 < p < 1 ) 求L(p)的最大值点
取对数
lnL(p)=∑i=1nln[pxi(1−p)1−xi] ln L ( p ) = ∑ i = 1 n ln [ p x i ( 1 − p ) 1 − x i ]
=∑i=1n[xilnp+(1−xi)ln(1−p)] = ∑ i = 1 n [ x i ln p + ( 1 − x i ) ln ( 1 − p ) ]
(Inx)’ = 1/x
对p求导: ∑i=1n(xip−1−xi1−p)=0 ∑ i = 1 n ( x i p − 1 − x i 1 − p ) = 0
∑i=1nxip=∑i=1n1−xi1−p ∑ i = 1 n x i p = ∑ i = 1 n 1 − x i 1 − p
xi∑i=1n1p=11−p(n−∑i=1nxi) x i ∑ i = 1 n 1 p = 1 1 − p ( n − ∑ i = 1 n x i )
1−pp∑i=1nxi=(n−∑i=1nxi) 1 − p p ∑ i = 1 n x i = ( n − ∑ i = 1 n x i )
(1p−1)∑i=1nxi=(n−∑i=1nxi) ( 1 p − 1 ) ∑ i = 1 n x i = ( n − ∑ i = 1 n x i )
∑i=1nxip=n ∑ i = 1 n x i p = n
p=1n∑i=1nxi=X⎯⎯⎯⎯ p = 1 n ∑ i = 1 n x i = X ¯
故p的最大似然估计值为 p̂ =X⎯⎯⎯⎯ p ^ = X ¯
多参数最大似然估计法
设总体X的分布含有k个未知参数 θ1,..,θn θ 1 , . . , θ n ,设 x1,...xn x 1 , . . . x n 是来自总体X的样本观测值,相应的似然函数为k元函数:
L=L(θ1,…θn)=∏i=1nf(xi;θ1,…,thetan) L = L ( θ 1 , … θ n ) = ∏ i = 1 n f ( x i ; θ 1 , … , t h e t a n )
为求这个函数的最大值点,需先求函数的驻点,即各个偏导数同时为0的点
∂L∂θi=0 ∂ L ∂ θ i = 0 或 ∂lnL∂θi=0 ∂ l n L ∂ θ i = 0
解出 θ̂ 1,..,θ̂ k θ ^ 1 , . . , θ ^ k ,它们分别是未知参数 θ1,..,θn θ 1 , . . , θ n 的最大似然估计量。
例子
设总体X~N( μ,σ2 μ , σ 2 ), μ,σ2 μ , σ 2 未知, x1,...xn x 1 , . . . x n 是来自筒体X的一个样本值,求 μ,σ2 μ , σ 2 的最大似然估计量。
X的概率密度
f(x;μ,σ2)=12π√σe−(x−μ)22σ2 f ( x ; μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2
相应的似然函数
∏i=1nL(μ,σ2)=∏i=1nf(xi;μ,σ2)=∏i=1n12π√σe−(xi−μ)22σ2=1(2π)n2(σ2)n2∏i=1ne−(xi−μ)22σ2 ∏ i = 1 n L ( μ , σ 2 ) = ∏ i = 1 n f ( x i ; μ , σ 2 ) = ∏ i = 1 n 1 2 π σ e − ( x i − μ ) 2 2 σ 2 = 1 ( 2 π ) n 2 ( σ 2 ) n 2 ∏ i = 1 n e − ( x i − μ ) 2 2 σ 2
求二元函数L的驻点
lnL(μ,σ2)=−n2ln(2π)−n2lnσ2−∑i=1n(xi−μ)22σ2 ln L ( μ , σ 2 ) = − n 2 ln ( 2 π ) − n 2 ln σ 2 − ∑ i = 1 n ( x i − μ ) 2 2 σ 2
求偏导数
∂lnL∂μ=−∑i=1n(x2i2σ2+μ22σ2−2xiμ2σ2)=∑i=1nxi−μσ2 ∂ ln L ∂ μ = − ∑ i = 1 n ( x i 2 2 σ 2 + μ 2 2 σ 2 − 2 x i μ 2 σ 2 ) = ∑ i = 1 n x i − μ σ 2
(xi−μ)22σ2 ( x i − μ ) 2 2 σ 2 对 σ2 σ 2 求偏导数 (xi−μ)22∗1σ2=(xi−μ)22∗−1σ22∑i=1n ( x i − μ ) 2 2 ∗ 1 σ 2 = ( x i − μ ) 2 2 ∗ − 1 σ 2 2 ∑ i = 1 n
∂lnL∂σ2=−n2σ2+(xi−μ)22(σ2)2∑i=1n ∂ ln L ∂ σ 2 = − n 2 σ 2 + ( x i − μ ) 2 2 ( σ 2 ) 2 ∑ i = 1 n
求驻点
∑i=1nxi−μσ2=0 ∑ i = 1 n x i − μ σ 2 = 0
1σ2(∑i=1nxi−nμ)=0 1 σ 2 ( ∑ i = 1 n x i − n μ ) = 0
μ=1n∑i=1nxi=x⎯⎯⎯ μ = 1 n ∑ i = 1 n x i = x ¯
−n2σ2+∑i=1n(xi−μ)22(σ2)2=0 − n 2 σ 2 + ∑ i = 1 n ( x i − μ ) 2 2 ( σ 2 ) 2 = 0 −n2σ2 − n 2 σ 2 移到右边,两边去掉 −12σ2 − 1 2 σ 2
1σ2∑i=1n(xi−μ)2=n 1 σ 2 ∑ i = 1 n ( x i − μ ) 2 = n
σ2=1n∑i=1n(xi−x⎯⎯⎯)2=b2 σ 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 = b 2 样本二阶中心矩
μ,σ2 μ , σ 2 的最大似然估计量分别是
μ̂ =X⎯⎯⎯⎯ μ ^ = X ¯
σ̂ 2=B2 σ ^ 2 = B 2
最大似然估计的不变性
设 θ θ 的函数u=u( θ θ )( θ∈Θ θ ∈ Θ )
具有反函数 θ=φ(u) θ = φ ( u ) ( u∈U u ∈ U )
若 θ̂ θ ^ 是X的概率分布中参数的最大似然估计,则 û =u(θ̂ ) u ^ = u ( θ ^ ) 是参数u( θ θ )的最大似然估计。
估计量的评选标准
无偏估计量
定义
若 θ θ 的估计量 θ̂ =θ̂ (X1,…,Xn) θ ^ = θ ^ ( X 1 , … , X n ) ,数学期望E( θ̂ θ ^ )存在,且对于任意 θ∈Θ θ ∈ Θ 都有 E(θ̂ )=θ E ( θ ^ ) = θ ,则称 θ̂ θ ^ 是 θ θ 的无偏估计量。否则为有偏估计量。
θ θ 的估计量 θ̂ =θ̂ (X1,…,Xn) θ ^ = θ ^ ( X 1 , … , X n )
无偏估计量 θ̂ :E(θ̂ )=θ θ ^ : E ( θ ^ ) = θ
估计量的无偏性是指:如果反复使用这一估计量很多次,则其平均偏差将为零。
E(θ̂ )−θ E ( θ ^ ) − θ 称为估计的系统误差
无偏估计的实际意义就是无系统误差。
命题1
设总体X有均值E(x)= μ μ , X1,…,Xn X 1 , … , X n 是来自总体的样本,设样本的线性组合 μ̂ =∑ni=1ciXi μ ^ = ∑ i = 1 n c i X i 是 μ μ 的一个估计量( ci c i 是实数)
证明: μ̂ μ ^ 是 μ μ 的无偏估计量的充分必要条件是 ∑ni=1ci=1 ∑ i = 1 n c i = 1
例子
设总体X~N( μ,σ2 μ , σ 2 ), X1,…,Xn X 1 , … , X n 是来自总体的样本,试确定定常数C,使 C∑ni=1(Xi+1−Xi)2 C ∑ i = 1 n ( X i + 1 − X i ) 2 为 σ2 σ 2 的无偏估计量。
要使 E[C∑ni=1(Xi+1−Xi)2]=σ2 E [ C ∑ i = 1 n ( X i + 1 − X i ) 2 ] = σ 2
E[C∑ni=1(Xi+1−Xi)2] E [ C ∑ i = 1 n ( X i + 1 − X i ) 2 ]
=C∑ni=1E[(Xi+1−Xi)2] = C ∑ i = 1 n E [ ( X i + 1 − X i ) 2 ]
=C∑ni=1[(E(Xi+1)2−2E(X2i+1)E(Xi)+E(X2I)] = C ∑ i = 1 n [ ( E ( X i + 1 ) 2 − 2 E ( X i + 1 2 ) E ( X i ) + E ( X I 2 ) ]
=C(n−1)[(σ2+μ2)−2μ2+(σ2+μ2] = C ( n − 1 ) [ ( σ 2 + μ 2 ) − 2 μ 2 + ( σ 2 + μ 2 ]
=C(n−1)2σ2=σ2 = C ( n − 1 ) 2 σ 2 = σ 2
C=12(n−1) C = 1 2 ( n − 1 )
E(X2i)=D(Xi)+[E(Xi)]2=σ2+μ2 E ( X i 2 ) = D ( X i ) + [ E ( X i ) ] 2 = σ 2 + μ 2
有效性
有些参数可能没有无偏估计量,有些参数有多个无偏估计量。
定义
θ̂ 1=f(X1,..,XN) θ ^ 1 = f ( X 1 , . . , X N ) 和 θ̂ 2=g(X1,..,XN) θ ^ 2 = g ( X 1 , . . , X N ) 都是参数 θ θ 的无偏估计量,若对于任何 θ∈Θ θ ∈ Θ 都有 D(θ̂ 1)≤D(θ̂ 2) D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) ,且对至少一个 θ∈Θ θ ∈ Θ 不等式成立,则称 θ̂ 1 θ ^ 1 是 θ̂ 2 θ ^ 2 比更有效的估计量。
如果是 θ̂ θ ^ 的 θ θ 方差最小的无偏估计量,则称 θ̂ θ ^ 为 θ θ 的最小方差无偏估计量,它是最有效的估计量。
命题2
设总体X有均值E(x)= μ μ , X1,…,Xn X 1 , … , X n 是来自总体的样本,且D(X)存在,则在一切形如
μ̂ =∑ni=1ciXi μ ^ = ∑ i = 1 n c i X i (其中 ∑ni=1ci=1 ∑ i = 1 n c i = 1 )
的 μ μ 的无偏估计量中,以样本均值 X⎯⎯⎯⎯=1n∑i=1nXi X ¯ = 1 n ∑ i = 1 n X i 最有效。
例子
设 X1,…,Xn X 1 , … , X n 是总体U(0, θ θ )的一个样本,记
θ̂ 1=2X⎯⎯⎯⎯,θ̂ 2=n+1nZ(Z=max1≤i≤n{Xi}) θ ^ 1 = 2 X ¯ , θ ^ 2 = n + 1 n Z ( Z = max 1 ≤ i ≤ n { X i } )
证明(1) θ̂ 1 θ ^ 1 和 θ̂ 2 θ ^ 2 都是 θ θ 的无偏估计量
X~U(a,b)=>E(X)=1/2(a+b),D(X)=1/12 (b−a)2 ( b − a ) 2
E(θ̂ 1)=E(2X⎯⎯⎯⎯)=2E(X⎯⎯⎯⎯)=2E(X)=2∗0+θ2=θ E ( θ ^ 1 ) = E ( 2 X ¯ ) = 2 E ( X ¯ ) = 2 E ( X ) = 2 ∗ 0 + θ 2 = θ
E(θ̂ 2)=E(n+1nZ)=n+1nE(Z) E ( θ ^ 2 ) = E ( n + 1 n Z ) = n + 1 n E ( Z )
求Z的概率密度
根据X的概率密度得到X分布函数
Z的分布函数
Fz(x)=P{Z≤x}=P{ max1≤i≤n{Xi} max 1 ≤ i ≤ n { X i } ≤x}
=P{max1≤i≤n{Xi}≤x}=P{X1≤x,..,Xn≤x} = P { max 1 ≤ i ≤ n { X i } ≤ x } = P { X 1 ≤ x , . . , X n ≤ x }
=P{X1≤x}...P{Xn≤x} = P { X 1 ≤ x } . . . P { X n ≤ x }
=F(x)…F(x)=
[F(x)]n
[
F
(
x
)
]
n
求导的Z的概率密度
fz(x)=fz’(x)= nxn−1/θn(0<x<θ) n x n − 1 / θ n ( 0 < x < θ )
E(Z)= ∫θoxnxn−1θndx=nθn+1 ∫ o θ x n x n − 1 θ n d x = n θ n + 1
E(θ̂ 2)=n+1nE(Z)=θ E ( θ ^ 2 ) = n + 1 n E ( Z ) = θ
(2) θ̂ 2 θ ^ 2 比 θ̂ 1 θ ^ 1 更有效
D(θ̂ 1)=D(2X⎯⎯⎯⎯)=4D(X⎯⎯⎯⎯)=4D(X)n=θ23n D ( θ ^ 1 ) = D ( 2 X ¯ ) = 4 D ( X ¯ ) = 4 D ( X ) n = θ 2 3 n
D(θ̂ 2)=(n+1n)2D(Z) D ( θ ^ 2 ) = ( n + 1 n ) 2 D ( Z )
D(Z)=E(Z2)−[(Z)]2=nθ2n+2−(nθn+1)2 D ( Z ) = E ( Z 2 ) − [ ( Z ) ] 2 = n θ 2 n + 2 − ( n θ n + 1 ) 2
E(Z2)=∫θox2nxn−1θndx=nθ2n+2 E ( Z 2 ) = ∫ o θ x 2 n x n − 1 θ n d x = n θ 2 n + 2
D(θ̂ 2)=(n+1n)2D(Z)=θ2n(n+1) D ( θ ^ 2 ) = ( n + 1 n ) 2 D ( Z ) = θ 2 n ( n + 1 )
D(θ̂ 2)<D(θ̂ 1)(n≥2) D ( θ ^ 2 ) < D ( θ ^ 1 ) ( n ≥ 2 )
θ̂ 2 θ ^ 2 比 θ̂ 1 θ ^ 1 更有效
一致性
定义
设 θ̂ =θ̂ (X1,…,Xn) θ ^ = θ ^ ( X 1 , … , X n ) 是参数 θ θ 的估计量,若对任何 θ∈Θ θ ∈ Θ 当 n→∞ n → ∞ 时有
limn→∞P{|θ̂ −θ|<ϵ}=1(∀ϵ>0) lim n → ∞ P { | θ ^ − θ | < ϵ } = 1 ( ∀ ϵ > 0 )
即 θ̂ θ ^ 依概率收敛于 θ θ , θ̂ −→Pθ θ ^ → P θ
则称 θ̂ θ ^ 是 θ θ 的一致估计量
命题3
设 θ̂ θ ^ 是参数 θ θ 的估计量,若 limn→∞D(θ̂ )=0 lim n → ∞ D ( θ ^ ) = 0 ,则 θ̂ θ ^ 是 θ θ 的一致估计量。
一致估计量的不变性
设 θ̂ θ ^ 是 θ θ 的一致估计量,g( θ θ )是连续函数,则g( θ̂ θ ^ )是 g(θ) g ( θ ) 的一致估计量
区间估计
置信区间
定义
设总体X的分布函数F(x; θ θ )含有参数 θ∈Θ θ ∈ Θ ( Θ Θ 是 θ θ 取值范围)。对于给定的值 α(0<α<1) α ( 0 < α < 1 ) ,若来自总体X的样本 X1,…,Xn X 1 , … , X n 确定的两个统计量 θ⎯⎯=θ⎯⎯(X1,…,Xn) θ _ = θ _ ( X 1 , … , X n ) 和 θ⎯⎯⎯=θ⎯⎯⎯(X1,…,Xn) θ ¯ = θ ¯ ( X 1 , … , X n )
其中 θ⎯⎯<overlineθ θ _ < o v e r l i n e θ ,满足 ∀θ∈Θ ∀ θ ∈ Θ
p{θ⎯⎯<θ<θ⎯⎯⎯}≥1−α p { θ _ < θ < θ ¯ } ≥ 1 − α
则称随机区间( θ⎯⎯,θ⎯⎯⎯ θ _ , θ ¯ )是 θ θ 的 置信水平 置 信 水 平 为 2−α 2 − α 的 置信区间 置 信 区 间 。
θ⎯⎯ θ _ 和 θ⎯⎯⎯ θ ¯ 分别是置信下限和置信上限。
区间估计一般要结合参数的点估计量来使用。
点估计量只是未知参数的近似值,但它不能告诉我们其精准程度和可信度。
区间估计则通过两个统计量 θ⎯⎯ θ _ 和 θ⎯⎯⎯ θ ¯ 确定了一个区间,使得该区间包含真值的概率不小于 1−α 1 − α 。还给出了估计的精度和可信程度。
p{θ⎯⎯<θ<θ⎯⎯⎯}≥1−α p { θ _ < θ < θ ¯ } ≥ 1 − α 的含义如下:
若反复抽样多次(样本容量不变),每一个样本值 x1,..,xn x 1 , . . , x n 确定一个区间
(θ⎯⎯,θ⎯⎯⎯)=(θ⎯⎯(X1,…,Xn),θ⎯⎯⎯(X1,…,Xn)) ( θ _ , θ ¯ ) = ( θ _ ( X 1 , … , X n ) , θ ¯ ( X 1 , … , X n ) )
这样的随机区间可能包含 θ θ 的真值,也不能不包含。这些区间中,包含真值的约占100( 1−α 1 − α )%,不包含的仅占100 α α %。( α α 很小)
α α 是一个很小的数,一般取0< α α ≤0.3。这样真值落到置信区间外的概率 α α 比较小。
一般地, α α 越小, θ θ 落入置信区间的可能性就越大(为1- α α ),但这个区间也会越宽,估计误差会增大。
所以 α α 也不能取太小,通常去0.01,0.05,0.1等。