定义
设统计模型为 { P θ θ ∈ Θ } \{P_\theta\,\theta \in \Theta\} {Pθθ∈Θ},任何与总g有关的待估计量可以看成是参数空间 Θ \Theta Θ上的实值函数 q ( θ ) q(\theta) q(θ), g ( θ ) g(\theta) g(θ)称为参数
用来估计参数 g ( θ ) g(\theta) g(θ)的实值统计量 T ( X ) T(X) T(X)称为 g ( θ ) g(\theta) g(θ)的估计量,简称为估计
通常用记号 g ^ \hat g g^表示估计,相当于 g ^ ( θ ) \hat g(\theta) g^(θ)
点估计
频率替换原理
相当于用频率来替换概率,在样本试验次数无穷大的时候,频率=概率
但是在实际之中,每次试验结果发生的概率 p i p_i pi不是独立变换的,而是依赖于 m m m维参数 θ = ( θ 1 , θ 2 , . . . θ m ) \theta=(\theta_1,\theta_2,...\theta_m) θ=(θ1,θ2,...θm)的连续函数, p i = h i ( θ 1 , θ 2 , . . . , θ m ) , i = 1 , 2 , . . . , k p_i=h_i(\theta_1,\theta_2,...,\theta_m),i=1,2,...,k pi=hi(θ1,θ2,...,θm),i=1,2,...,k
假定方程可解, θ \theta θ可以用 p i p_i pi表示, q ( θ ) = g ( p 1 , p 2 , . . . , p k ) q(\theta)=g(p_1,p_2,...,p_k) q(θ)=g(p1,p2,...,pk),然后把 p i p_i pi用 q i q_i qi替换
矩估计法
主要思想是基于频率替换原理,样本的矩依概率收敛于总体的矩
设总体的前r个原点矩存在,即 m j ( θ ) = E θ ( X j ) , j = 1 , 2 , . . . , r , θ = ( θ 1 , θ 2 , . . . , θ m ) m_j(\theta)=E_\theta(X^j),j=1,2,...,r,\theta = (\theta_1,\theta_2,...,\theta_m) mj(θ)=Eθ(Xj),j=1,2,...,r,θ=(θ1,θ2,...,θm)
相应的样本的前 r r r个原点矩为 m ^ j = 1 n Σ i = 1 n X i j , j = 1 , 2 , . . . , r \hat m_j=\frac 1n\Sigma_{i=1}^nX_i^j,j=1,2,...,r m^j=n1Σi=1nXij,j=1,2,...,r、
假设需要估计 q ( θ ) q(\theta) q(θ),先将其表示为前r个原点矩的函数,然后反解+替换原理即可
通常做题的方法也是通过 E ( X ) , E ( X 2 ) . . . E(X),E(X^2)... E(X),E(X2)...用未知参数表示,然后解方程
优点
- 不依赖于总体的分布,简便
- 只要n足够大,精度高
缺点
- 样本容量一定,精度低
- 总体的k阶矩要存在
- 未知参数能够写为总体的原点矩的函数形式
注意 总体有的时候不一定存在适当阶矩,比如柯西分布
极大似然估计
最早是由高斯在处理正态分布的时候提出的
设总体 X X X的密度函数为 f ( x , θ ) f(x,\theta) f(x,θ), θ \theta θ是未知参数,那么极大似然函数就是 L = ∏ i = 1 n f θ ( x i , θ ) L=\prod_{i=1}^nf_\theta(x_i,\theta) L=∏i=1nfθ(xi,θ)
如果是离散型,就是 L = ∏ i = 1 n P θ ( X i = x i ) L=\prod_{i=1}^nP_\theta(X_i=x_i) L=∏i=1nPθ(Xi=xi)
然后要求哪个参数的估计,对这个函数求偏导即可
理解
其实极大似然估计就是让参数尽可能的与数据相匹配
可以将 L L L理解为一个联合分布的概率,代表出现当前样本的概率
(但我们当前已经发生了,已经是1),然后让 L L L这个概率尽可能大,贴近我们当前的事实(贴近1)
均方误差准则
假设用 T ( x ) T(x) T(x)作为参数 q ( θ ) q(\theta) q(θ)的估计量,评价估计优劣的一个准则定义如下
M S E θ ( T ) = R ( θ , T ) = E ( T ( x ) − q ( θ ) ) 2 MSE_\theta(T)=R(\theta,T)=E(T(x)-q(\theta))^2 MSEθ(T)=R(θ,T)=E(T(x)−q(θ))2
如果 R ( θ , T ) < + ∞ , R ( θ , T ) = D θ ( T ( x ) ) + b 2 ( θ , T ) , b ( θ , T ) = E θ [ T ( x ) − q ( θ ) ] R(\theta,T)<+\infty,R(\theta,T)=D_\theta(T(x))+b^2(\theta,T),b(\theta,T)=E_\theta[T(x)-q(\theta)] R(θ,T)<+∞,R(θ,T)=Dθ(T(x))+b2(θ,T),b(θ,T)=Eθ[T(x)−q(θ)]
推导
点估计的无偏性
估计的目的是找到一个
θ
^
=
θ
\hat \theta=\theta
θ^=θ,但
θ
^
\hat \theta
θ^是个随机变量,需要衡量效果
用 E ∣ θ ^ − θ ∣ E|\hat \theta-\theta| E∣θ^−θ∣来衡量差距,但 E ∣ θ ^ − θ ∣ E|\hat \theta-\theta| E∣θ^−θ∣不是一个光滑的函数,所以我们采用 E ( θ ^ − θ ) 2 E(\hat \theta-\theta)^2 E(θ^−θ)2来衡量
E ( θ ^ − θ ) 2 = E ( θ ^ − E ( θ ^ ) + E ( θ ^ ) − θ ) 2 = D ( θ ^ ) + ( E ( θ ^ ) − θ ) 2 + 2 E ( θ ^ − θ ) E ( θ ^ − E ( θ ^ ) ) = D ( θ ^ ) + ( E ( θ ^ ) − θ ) 2 \begin{aligned} E(\hat \theta-\theta)^2&=E(\hat\theta-E(\hat\theta)+E(\hat\theta)-\theta)^2\\ &=D(\hat\theta)+(E(\hat\theta)-\theta)^2+2E(\hat\theta-\theta)E(\hat\theta-E(\hat\theta))\\ &=D(\hat\theta)+(E(\hat\theta)-\theta)^2\\ \end{aligned} E(θ^−θ)2=E(θ^−E(θ^)+E(θ^)−θ)2=D(θ^)+(E(θ^)−θ)2+2E(θ^−θ)E(θ^−E(θ^))=D(θ^)+(E(θ^)−θ)2
b ( θ , T ) b(\theta,T) b(θ,T)称为偏差,如果 b ( θ , T ) = 0 b(\theta,T)=0 b(θ,T)=0,则为无偏估计