参数估计
一、点估计
1.1 矩估计: V k = E X k = 1 n ∑ i = 1 n X i k V_k=EX^k=\frac{1}{n}\sum_{i=1}^{n} X_i^k Vk=EXk=n1∑i=1nXik
- 定义:用样本的有关矩去作为总体有关矩的估计。
- 重要结论
(1)样本均值作为总体期望的估计
(2)样本二阶中心矩作为总体方差的估计
(3)样本中位数(众数)作为总体中位数(众数)的估计 - 理论依据:大数律。矩估计基本上都是依概率或者几乎处处收敛到未知参数。
- 需注意问题
(1)总体的参数不能表示成矩的函数时(一般是总体矩不存在),就不能使用矩估计
(2)如果能够用低阶的矩估计,就不要用高阶矩
(3)按照矩估计的理论应该用样本的二阶中心矩来估计总体的方差,但是在实际应用中人们总是采用样本方差作为总体方差的的估计。 - 最大优点:简单实用,与总体分布形势没有关系。只要知道总体随机变量一些矩存在,就可以做相应的矩估计。
- 几个常见分布的矩估计
(1)二项分布 B ( N , p ) , N B(N,p),N B(N,p),N已知
p ^ = X ‾ N \hat{p}=\frac{\overline{X}}{N} p^=NX
(2)均匀分布 U ( a , b ) U(a,b) U(a,b)
b ^ , a ^ = X ‾ ± 3 ( n − 1 ) n S \hat{b}, \hat{a} = \overline{X} \pm \sqrt{\frac{3(n-1)}{n}} S b^,a^=X±n3(n−1)S
(3)泊松分布 P ( λ ) P(\lambda) P(λ)
λ ^ = X ‾ \hat{\lambda}=\overline{X} λ^=X
(4)参数为 λ \lambda λ 的指数总体
λ ^ = 1 X ‾ \hat{\lambda}=\frac{1}{\overline{X}} λ^=X1
(5)正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
μ ^ = X ‾ , σ ^ 2 = n − 1 n S 2 \hat{\mu}=\overline{X}, \hat{\sigma}^2=\frac{n-1}{n} S^2 μ^=X,σ^2=nn−1S2
σ ^ = n − 1 n S \hat{\sigma}=\sqrt{\frac{n-1}{n}} S σ^=nn−1S
1.2 极大似然估计: L ( θ ) = f ( x , θ ) L(\theta) = f(x, \theta) L(θ)=f(x,θ)
- 定义:所有情况中,“看起来最像”的那个估计。求参数 θ \theta θ 使已知条件发生的可能性最大。
- 重要结论
(1)对离散总体,似然函数是样本联合分布律
(2)对连续总体,它是样本联合密度函数 - 如何理解:总体参数
θ
\theta
θ 的极大似然估计就是使得似然函数在
Θ
\Theta
Θ 参数空间中达到极大。
∀ θ ∈ Θ , L ( θ ^ ) = m a x L ( θ ) \forall \theta \in \Theta, L(\hat{\theta}) = maxL(\theta) ∀θ∈Θ,L(θ^)=maxL(θ) - 求解方式
(1)建立极大似然方程组,求对数,导数等于0
(2)用定义 - 几个常见分布的似然函数
(1)二项分布 B ( N , p ) , N B(N,p),N B(N,p),N已知
L ( θ ) = [ ∏ ( N x k ) ] p ∑ x k ( 1 − p ) n N − ∑ x k L(\theta) = [\prod{\dbinom{N}{x_k}}] p^{\sum x_k} (1-p)^{nN - \sum x_k} L(θ)=[∏(xkN)]p∑xk(1−p)nN−∑xk
∂ ∂ θ l n [ L ( θ ) ] = x ‾ p − N − x ‾ 1 − p = 0 \frac{\partial}{\partial \theta} ln[L(\theta)] = \frac{\overline x}{p} - \frac{N - \overline{x}}{1-p} = 0 ∂θ∂ln[L(θ)]=px−1−pN−x=0
(2)正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
L ( θ ) = ( 2 π σ 2 ) − n 2 e x p { − 1 2 σ 2 ∑ k = 1 n ( x k − μ ) 2 } L(\theta) = (2\pi \sigma^2)^{-\frac{n}{2}}exp\{-\frac{1}{2\sigma^2} \sum_{k=1}^n(x_k-\mu)^2\} L(θ)=(2πσ2)−2nexp{−2σ21k=1∑n(xk−μ)2}
{ 1 σ 2 ( x ‾ − μ ) = 0 − n 2 σ 2 + 1 2 ( σ 2 ) 2 ∑ k = 1 n ( x k − μ ) 2 = 0 \begin{cases} \frac{1}{\sigma^2}(\overline{x}-\mu) = 0 \\ -\frac{n}{2\sigma^2}+\frac{1}{2(\sigma^2)^2} \sum_{k=1}^n(x_k-\mu)^2 =0 \end{cases} {σ21(x−μ)=0−2σ2n+2(σ2)21∑k=1n(xk−μ)2=0
(3)均匀分布 U ( a , b ) U(a,b) U(a,b)
L ( θ ) = 1 , θ < x ( 1 ) , . . . , x ( n ) < θ + 1 L(\theta) = 1, \theta < x_{(1)}, ... , x_{(n)} < \theta + 1 L(θ)=1,θ<x(1),...,x(n)<θ+1 - 几个常见分布的极大似然估计
(1)二项分布 B ( N , p ) , N B(N,p),N B(N,p),N已知
p ^ = X ‾ N \hat{p}=\frac{\overline{X}}{N} p^=NX
(2)均匀分布 U ( a , b ) U(a,b) U(a,b)
a ^ , b ^ = X ( 1 ) , X ( n ) \hat{a}, \hat{b} = X_{(1)}, X_{(n)} a^,b^=X(1),X(n)
(3)泊松分布 P ( λ ) P(\lambda) P(λ)
λ ^ = X ‾ \hat{\lambda}=\overline{X} λ^=X
(4)参数为 λ \lambda λ 的指数总体
λ ^ = 1 X ‾ \hat{\lambda}=\frac{1}{\overline{X}} λ^=X1
(5)正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
μ ^ = X ‾ , σ ^ 2 = n − 1 n S 2 \hat{\mu}=\overline{X}, \hat{\sigma}^2=\frac{n-1}{n} S^2 μ^=X,σ^2=nn−1S2
σ ^ = n − 1 n S \hat{\sigma}=\sqrt{\frac{n-1}{n}} S σ^=nn−1S
1.3 比较
- 矩估计不需要知道总体分布,只要求总体的矩存在
- 极大似然估计必须要知道总体来自哪一种分布类型,有更多数学上的良好性质
二、估计的优良标准
1.1 无偏性: E ϕ ( X 1 , . . . , X n ) = g ( θ ) E\phi(X_1,...,X_n)=g(\theta) Eϕ(X1,...,Xn)=g(θ)
- 定义:估计量的数学期望要等于参数
- 利用充分统计量构造无偏估计
1.2 有效性
- 定义:估计量的方差要比较小(主要限制在无偏估计的范围内)
- 如何衡量估计的偏差
M S E ( φ ) = E [ φ ( X 1 , . . . , X 2 ) − − g ( θ ) ] 2 MSE(\varphi)=E[\varphi(X_1,...,X_2)--g(\theta)]^2 MSE(φ)=E[φ(X1,...,X2)−−g(θ)]2 - 限制在UE中的最优估计:一致最小方差无偏估计(UMVUE)
- 一般情况下如何寻找UMVUE
如果 T T T是充分、完备的统计量, φ ( T ) \varphi(T) φ(T)是 g ( θ ) g(\theta) g(θ)的一个无偏估计,则 ϕ ( t ) \phi(t) ϕ(t)就是 g ( θ ) g(\theta) g(θ)的UMVUE - 关于一些常见分布的参数的UMVUE
(1)二项分布 B ( N , p ) , N B(N,p),N B(N,p),N已知
p ^ = X ‾ N \hat{p}=\frac{\overline{X}}{N} p^=NX
(2)泊松分布 P ( λ ) P(\lambda) P(λ)
λ ^ = X ‾ \hat{\lambda}=\overline{X} λ^=X
(3)参数为 λ \lambda λ 的指数总体
λ ^ = n − 1 n X ‾ \hat{\lambda}=\frac{n-1}{n\overline{X}} λ^=nXn−1
(4)正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
μ ^ = X ‾ , σ ^ 2 = S 2 \hat{\mu}=\overline{X}, \hat{\sigma}^2=S^2 μ^=X,σ^2=S2
1.3 相合性: φ n \varphi_n φn依概率收敛到 g ( θ ) g(\theta) g(θ)
- 定义:当样本容量趋于无限多时,估计量应该收敛到参数
- 公式
P { ∣ φ n − g ( θ ) ∣ > ε } → 0 P\{|\varphi_n-g(\theta)|>\varepsilon\}\to0 P{∣φn−g(θ)∣>ε}→0 - 强相合估计
P { φ n → g ( θ ) } = 1 P\{\varphi_n\to g(\theta)\}\ = 1 P{φn→g(θ)} =1 - 渐进正态估计
n 1 2 [ φ n − g ( θ ) ] σ → N ( 0 , 1 ) \frac{n^{\frac{1}{2}}[\varphi_n-g(\theta)]}{\sigma} \to N(0,1) σn21[φn−g(θ)]→N(0,1)
三、区间估计
1.1 置信区间
- 定义:给定一个常数 0 < α < 1 0<\alpha<1 0<α<1,对于总体未知参数 g ( θ ) g(\theta) g(θ),如果存在两个统计量 φ 1 、 φ 2 \varphi_1、\varphi_2 φ1、φ2满足:则称 ( φ 1 , φ 2 ) (\varphi_1,\varphi_2) (φ1,φ2)是 g ( θ ) g(\theta) g(θ)的置信度 1 − α 1-\alpha 1−α的置信区间。
- 相关概念:置信下限、置信上限、置信区间、置信度、置信水平等
1.2 求解思路
- 找一个枢轴变量 Z ( X , θ ) Z(X,\theta) Z(X,θ)
- 对于给定的置信度 1 − α 1-\alpha 1−α,求出两个常数 a 、 b a、b a、b
- 变换不等式,成为的等价的形式。因此区间
(
φ
1
,
φ
2
)
(\varphi_1,\varphi_2)
(φ1,φ2)就是
g
(
θ
)
g(\theta)
g(θ)的一个置信度为
1
−
α
1-\alpha
1−α的区间估计
a < Z ( X , θ ) < b → φ 1 ( X ) < g ( θ ) < φ 2 ( X ) a<Z(X,\theta)<b \to \varphi_1(X) < g(\theta) < \varphi_2(X) a<Z(X,θ)<b→φ1(X)<g(θ)<φ2(X)
1.3 常见的区间估计
- **总体属性比例的置信区间(
p
s
,
p
,
1
−
α
p_s,p,1-\alpha
ps,p,1−α)(最短区间 )
X − n p n p ( 1 − p ) = X n − p p ( 1 − p ) n → N ( 0 , 1 ) \frac{X-np}{\sqrt{np(1-p)}} = \frac{\frac{X}{n}-p}{\sqrt{\frac{p(1-p)}{n}}} \to N(0,1) np(1−p)X−np=np(1−p)nX−p→N(0,1)
( p s − u α / 2 p s ( 1 − p s ) n , p s + u α / 2 p s ( 1 − p s ) n ) (p_s-u_{\alpha/2} \sqrt{\frac{p_s(1-p_s)}{n}}, p_s+u_{\alpha/2} \sqrt{\frac{p_s(1-p_s)}{n}}) (ps−uα/2nps(1−ps),ps+uα/2nps(1−ps)) - **指数总体参数的置信区间(
λ
,
1
−
α
\lambda, 1-\alpha
λ,1−α)(不一定是最短区间 )
2 λ ∑ i = 1 n X i → Γ ( 2 n 2 , 1 2 ) = χ 2 ( 2 n ) 2\lambda \sum_{i=1}^n X_i \to \Gamma(\frac{2n}{2},\frac{1}{2})=\chi^2(2n) 2λi=1∑nXi→Γ(22n,21)=χ2(2n)
( χ 1 − α / 2 2 ( 2 n ) 2 n X ‾ , χ α / 2 2 ( 2 n ) 2 n X ‾ ) ( \frac{\chi_{1-\alpha/2}^2(2n)}{2n\overline{X}}, \frac{\chi_{\alpha/2}^2(2n)}{2n\overline{X}}) (2nXχ1−α/22(2n),2nXχα/22(2n)) - **正态总体均值的置信区间(
X
‾
,
1
−
α
\overline{X}, 1-\alpha
X,1−α)(最短区间 )
(1)总体方差已知( σ 2 = σ 0 2 , N ( μ , σ 0 2 n ) \sigma^2=\sigma_0^2, N(\mu, \frac{\sigma_0^2}{n}) σ2=σ02,N(μ,nσ02))
P { ∣ n ( X ‾ − μ ) σ 0 ∣ ≤ u α / 2 } = 1 − α P\{|\frac{\sqrt{n}(\overline{X}-\mu)}{\sigma_0}|\le u_{\alpha/2}\} = 1-\alpha P{∣σ0n(X−μ)∣≤uα/2}=1−α
( X ‾ − u α / 2 σ 0 n , X ‾ + u α / 2 σ 0 n ) (\overline{X}-u_{\alpha/2}\frac{\sigma_0}{\sqrt{n}}, \overline{X}+u_{\alpha/2}\frac{\sigma_0}{\sqrt{n}}) (X−uα/2nσ0,X+uα/2nσ0)
(2)总体方差未知
n ( X ‾ − μ ) S → t ( n − 1 ) \frac{\sqrt{n}(\overline{X}-\mu)}{S} \to t(n-1) Sn(X−μ)→t(n−1)
( X ‾ − t α / 2 ( n − 1 ) S n , X ‾ + t α / 2 ( n − 1 ) S n ) (\overline{X}-t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}) (X−tα/2(n−1)nS,X+tα/2(n−1)nS) - 正态总体方差的置信区间(
σ
2
,
1
−
α
\sigma^2, 1-\alpha
σ2,1−α)
( n − 1 ) S 2 σ 2 → χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \to \chi^2(n-1) σ2(n−1)S2→χ2(n−1)
( ( n − 1 ) S 2 χ α / 2 2 ( n − 1 ) , ( n − 1 ) S 2 χ 1 − α / 2 2 ( n − 1 ) ) (\frac{(n-1)S^2}{\chi_{\alpha/2}^{2}(n-1)}, \frac{(n-1)S^2}{\chi_{1 - \alpha/2}^{2}(n-1)}) (χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2) - 两个正态总体均值差的置信区间(
μ
1
−
μ
2
,
N
(
μ
1
,
σ
1
2
)
→
n
1
,
N
(
μ
2
,
σ
2
2
)
→
n
2
\mu_1 - \mu_2, N(\mu_1, \sigma_1^2) \to n_1, N(\mu_2, \sigma_2^2) \to n_2
μ1−μ2,N(μ1,σ12)→n1,N(μ2,σ22)→n2)
( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) S w 1 n 1 + 1 n 2 → t ( n 1 + n 2 − 2 ) \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\to t(n_1+n_2-2) Swn11+n21(X−Y)−(μ1−μ2)→t(n1+n2−2)
S w 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} Sw2=n1+n2−2(n1−1)S12+(n2−1)S22
( X ‾ − Y ‾ − t α / 2 ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 , X ‾ − Y ‾ + t α / 2 ( n 1 + n 2 − 2 ) S w 1 n 1 + 1 n 2 ) (\overline{X}-\overline{Y} - t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}, \overline{X}-\overline{Y} + t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}) (X−Y−tα/2(n1+n2−2)Swn11+n21,X−Y+tα/2(n1+n2−2)Swn11+n21) - 两个正态总体方差比的置信区间(
σ
1
2
/
σ
2
2
,
1
−
α
\sigma_1^2/\sigma_2^2, 1-\alpha
σ12/σ22,1−α)
S 1 2 / S 2 2 σ 1 2 / σ 2 2 → F ( n 1 − 1 , n 2 − 1 ) \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \to F(n_1-1, n_2-1) σ12/σ22S12/S22→F(n1−1,n2−1)
( S 1 2 / S 2 2 F α / 2 ( n 1 − 1 , n 2 − 1 ) , S 1 2 / S 2 2 F 1 − α / 2 ( n 1 − 1 , n 2 − 1 ) ) (\frac{S_1^2/S_2^2}{F_{\alpha/2}(n_1-1,n_2-1)}, \frac{S_1^2/S_2^2}{F_{1 - \alpha/2}(n_1-1,n_2-1)}) (Fα/2(n1−1,n2−1)S12/S22,F1−α/2(n1−1,n2−1)S12/S22)
1.4 其他(置信水平的理解,样本容量对区间长度的影响)
- 置信水平的理解:如果采用某种方法构造出一个置信水平 0.95 的区间(这个区间的两个端点是统计量的函数),当我们代入 100 次统计量的数据从而得到 100 个区间时,平均有 95 个区间要包含总体参数。
- 样本容量对区间长度的影响:以 95% 的区间估计为例
4倍的样本容量,抽样误差才可能缩减一半
(1)总体比例
2 × 1.96 p s ( 1 − p s ) n 2 \times 1.96\sqrt{\frac{p_s(1-p_s)}{n}} 2×1.96nps(1−ps)
(2)方差未知正态总体
2 × t 0.025 ( n − 1 ) s n 2 \times t_{0.025}(n-1)\frac{s}{\sqrt{n}} 2×t0.025(n−1)ns
(3)方差已知正态总体
2 × 1.96 σ 0 n 2 \times 1.96 \frac{\sigma_0}{\sqrt{n}} 2×1.96nσ0
四、常考题型及解题思路
- 求参数的矩估计量
- 求参数的最大似然估计量
- 频率估计概率的原理求某参数的估计值
- 求参数,使估计量满足无偏性
- 求估计量的方差,判断哪个估计量更有效
- 求置信区间