Parameter Estimation (Chapter 4)[@XiruChen]

最新推荐文章于 2021-11-28 12:14:30 发布

dreamcatcher33

最新推荐文章于 2021-11-28 12:14:30 发布

阅读量444

点赞数

分类专栏：数理统计文章标签：数理统计参数估计

本文链接：https://blog.csdn.net/dreamcatcher33/article/details/44197435

版权

7 篇文章 1 订阅

订阅专栏

1. 数理统计学框架

关键词：定义框架

对某一个待研究问题进行建模（模型+误差），将问题转化为参数估计或假设检验问题。
(Remarks:
在我看到的文献中，生物统计应用文献确实遵循如此规则，在研究时也应如此。)

在统计量用作不同目的时，可根据其名字判断其用途：

描述统计学中用描述性统计量 –> 描述数据；
估计理论中用估计量 –> 参数估计；
统计假设检验中用检验统计量 –> 假设检验；
往往一个统计量会有多种用途，如常见的样本均值，样本方差，etc.

几个关键统计学概念的关系图

常用的估计方法包括：矩估计法，极大似然估计法，贝叶斯估计法等；

（以原点矩为例）：

α m \equiv E [X m] = \int \infty - \infty x m f (x; θ) d x \approx a m = \sum i = 1 n X m i / n

$\alpha_m \equiv E[X^m]= \int_{-\infty}^{\infty} {x^mf(x;\theta)dx} \approx a_m = \sum_{i=1}^n X_i ^m /n$

用原点矩 $\alpha_k$ 或者中心距 $\mu_k$ 均可；
参数不管一维还是 $k$ 维，求解是平凡的，为解方程/方程组；
若是带估计量为参数 $\theta$ 的函数，记为 $g(\theta)$ ,那么 $\hat{g}=g(\theta)$ ;(值得注意的是新参数的标准误 $se(\hat{g})\ne g(se(\hat{\theta}))$ ,一般用 $\delta$ -法等来估计)
一般来说，能用低阶矩就不用高阶矩；
当总体分布的参数表达未知时，仍可以直接估计那些能用矩表达的量，如均值( $\alpha_1$ 或 $\mu$ )，方差( $\mu_2$ 或 $\sigma^2$ )，变异系数( $\sigma/\mu$ )，偏度( $\beta_1 = \mu_3/\mu_2 ^{3/2}$ )，峰度( $\beta_2 = \mu_4/\mu_2 ^2$ );
以上2-3条对MLE仍然适用。

θ^M L E = a r g m a x θ L (X 1, . . ., X n; θ);

$\hat{\theta}_{MLE} = argmax_{\theta} {L(X_1,...,X_n;\theta)};$
当分布函数连续时可以化为求解似然方程组：

\partial l n L \partial θ i = 0; (i = 1, . . ., k) .

$\frac{\partial ln L}{\partial \theta_i}=0;(i=1,...,k).$

估计方法Steps	函数表达
参数 $\theta$ 的先验p.d.f	$h(\theta)$
随机变量 $X$ 关于 $\theta$ 的条件p.d.f	$f(X;\theta)$
$(X_1,X_2,...,X_n,\theta)$ 的联合p.d.f	$h(\widetilde{X},\theta)=h(\theta)f(X_1;\theta)...f(X_n;\theta)$
$(X_1,X_2,...,X_n)$ 的边缘p.d.f	$p(X_1,...,X_n)= \int h(\widetilde{X},\theta)d\theta$
$\theta$ 的后验p.d.f	$h(\theta\| \widetilde{X}) = h(\widetilde{X},\theta)/p(X_1,...,X_n)$

在得到 $\theta$ 的后验分布后，对参数的任何统计推断都只基于这个后验分布;(如求后验分布的期望得到参数点估计)
先验密度 $h(\theta)$ 不一定需要是严格的密度函数，只需要满足： $h(\theta) \ge 0$ 和边缘密度有限即可，此时称为“广义先验密度”;
贝叶斯方法计算量是非常大的；

无偏性：定义偏差(Bias) $B(\hat{\theta}) = E(\hat{\theta}-\theta)$ ;若 $B(\hat{\theta}) \equiv 0$ ,则称 $\hat{\theta}$ 为 $\theta$ 的一个无偏估计;
最小方差无偏估计: 定义均方误差 $MSE(\hat{\theta})= E(\hat{\theta}-\theta)^2$ ,则称使得均方误差取得最小值的那个估计为MVUE.
- $MSE(\hat{\theta})=Var(\hat{\theta})+[B(\hat{\theta})]^2$ ;其中 $Var(\hat{\theta})$ 刻画估计量 $\hat{\theta}$ 的随机误差，而 $B(\hat{\theta})$ 刻画其系统误差;
- 要使MSE达到最小，当且仅当 $Var(\hat{\theta})$ 达到最小（i.e.最小方差）且偏差 $B(\hat{\theta})=0$ ,i.e. 无偏;
- 此时显然 $Var(\hat{\theta}) = MSE(\hat{\theta}),se(\hat{\theta})=\sqrt{MSE(\hat{\theta}})$ ;
- 可以利用Fisher信息量用于构造Cramer-Rao’s lower bound;

Cramer-Rao 不等式 对 $g(\theta)$ 的任一无偏估计 $\hat{g}=g(X_1,...,X_n)$ ,有

V a r θ (g^) \geq (g' (θ)) 2 / (n I (θ))

$Var_{\theta}(\hat{g}) \ge (g'(\theta))^2/(n\mathcal{I}(\theta))$
其中

I(θ)=∫[(∂f(x;θ)∂θ)2/f(x;θ)]dx $\mathcal{I}(\theta)= \int [(\frac{\partial f(x;\theta)} {\partial \theta})^2/f(x;\theta)]dx$ .

充分性: （这里我直接用构造定理来解释，而非定义）
构造定理 记样本 $\widetilde{X}$ 的p.d.f.为 $f(\widetilde{x}|\theta)$ ,那么统计量 $T(\widetilde{X})$ 是充分统计量iff
对所有的 $\widetilde{x}$ 、 $\theta$ ,存在函数 $g(t|\theta)$ 和 $h(\widetilde{x})$ ,s.t.
$f (x ˜ | θ) = g (T (x ˜) | θ) h (x ˜) .$ $f(\widetilde{x}|\theta)=g(T(\widetilde{x})|\theta)h(\widetilde{x}).$

Remarks:
1. 对充分性的理解不深，之后可以重开一张来仔细review;

相合性: T(X˜) 是 g(θ) 的一个估计量，若对 ∀ϵ>0 ,

limn→∞P(|T(X˜)−g(θ)|≥ϵ)=0,

且对 θ 的一切可能取值都成立，则称 T(X˜) 是 g(θ) 的一个相合估计.
- 相合估计是对一个估计量的最基本的要求；
- 极大似然估计在很一般的条件下也有相合性，证明请查阅三明治法；
渐近有效性: 若 T(X˜) 是渐近正态的，即依分布收敛于 n−−√[T(X˜)−g(θ)]→N(0,v(θ)) , 并且渐近方差 v(θ)) 达到Cramer-Rao 下界。
- 极大似然估计在正则性条件下是渐近有效的；