最大似然估计和加权最大似然估计的渐进正态性

最新推荐文章于 2023-06-28 13:47:06 发布

Remote Sensing

最新推荐文章于 2023-06-28 13:47:06 发布

阅读量1.5k

点赞数 1

分类专栏： math 机器学习文章标签：概率论机器学习线性代数

本文链接：https://blog.csdn.net/RSstudent/article/details/127520979

版权

机器学习同时被 2 个专栏收录

29 篇文章 7 订阅

订阅专栏

math

17 篇文章 0 订阅

订阅专栏

最大似然估计的渐近分布

记似然函数为
$L(\theta)=\prod_{i=1}^{n}f(X_i;\theta)$
令 $l(\theta)=logL(\theta)$ 为对数似然函数，设 $\theta$ 为真值， $\hat{\theta}$ 为最大似然估计值。则有
$\frac{\partial l(\hat{\theta})}{\partial \theta} = \frac{\partial l(\theta)}{\partial \theta}+\frac{\partial^2 l(\theta)}{\partial \theta^2}(\hat{\theta}-\theta)=0$
从而
$\sqrt{n}(\hat{ \theta}-\theta)=-\sqrt{n}\frac{l'(\theta)}{l''(\theta)}=\frac{(1/\sqrt{n})l'(\theta)}{-(1/n)l''(\theta)}$
(i)由于
$\begin{aligned} \frac{1}{\sqrt{n}}l'(\theta)&=\frac{1}{\sqrt{n}}\sum_i \frac{\partial log f(X_i;\theta)}{\partial \theta}\\ &=\sqrt{n}\frac{1}{n}\sum_i\frac{\partial log f(X_i;\theta)}{\partial \theta}\\ \end{aligned}$
由于 $\mathbb{E}[\partial logf(X_i;\theta)/\partial\theta=/0]$ 以及 $\mathbb{V}[\partial logf(X_i;\theta)/\partial\theta]=I(\theta)$ （看我之前Fisher信息矩阵的博客）,进而由中心极限定理，可知
$\frac{1}{n}\sum_i\frac{\partial log f(X_i;\theta)}{\partial \theta}\rightsquigarrow N(0,I(\theta)/n)$
因此
$\sqrt{n}\frac{1}{n}\sum_i\frac{\partial log f(X_i;\theta)}{\partial \theta}\rightsquigarrow N(0,I(\theta))$
(ii)由于
$-(1/n)l''(\theta)=-\frac{1}{n}\sum_i \frac{\partial log^2 f(X_i;\theta)}{\partial \theta^2}$
由于 $E[-\frac{\partial log^2 f(X_i;\theta)}{\partial \theta^2}]=I(\theta)$ ，因此
$-(1/n)l''(\theta)\rightarrow I(\theta)$

$\frac{(1/\sqrt{n})l'(\theta)}{-(1/n)l''(\theta)}\rightsquigarrow N(0,\frac{I(\theta)}{I(\theta)^2})=N(0,I(\theta)^{-1})$

因此，最大似然估计量具有渐进正态分布。

下面我们证明加权最大似然估计具有渐进正态分布。

Theorem 1.(Hidetoshi, 2000)

在一定的正则条件下，即模型足够光滑等，设加权最小二乘估计器为 $\theta$ ，真实值为 $\theta^*$ ，则 $\sqrt{n}(\theta-\theta^*)$ 的渐进正态分布为 $N(0,H^{-1}GH^{-1})$ ，其中， $H$ 和 $G$ 均为 $m\times m$ 非奇异矩阵，定义为
$G=E[\frac{\partial l_w(x,y|\theta)}{\partial \theta}|_{\theta^{*}}\frac{\partial l_w(x,y|\theta)}{\partial \theta^T}|_{\theta^{*}}]$

$H=E[\frac{\partial^2 l_w(x,y|\theta)}{\partial \theta\partial \theta^T}|_{\theta^{*}}]$

其中，
$l_w(x,y|\theta)=-w(x)logp(y|x,\theta)$

Proof.

证明思路应该是与最大似然估计类似。

最大加权似然估计量满足
$\sum_i \frac{\partial l_w(x_i,y_i|\theta)}{\partial\theta}|_{\theta=\theta*}=0$
求导，有
$\sum_i \frac{\partial l_w(x_i,y_i|\theta)}{\partial\theta}|_{\theta=\theta*}+\sum_i \frac{\partial^2 l_w(x_i,y_i|\theta)}{\partial\theta \partial \theta'}|_{\theta=\theta^*}(\theta-\theta^*)=0$
进一步
$n^{\frac{1}{2}}(\theta-\theta^*)=\frac{n^{-1/2}}{n^{-1}}\frac{\sum_i \frac{\partial l_w(x_i,y_i|\theta)}{\partial\theta}|_{\theta=\theta*}}{\sum_i \frac{\partial^2 l_w(x_i,y_i|\theta)}{\partial\theta \partial \theta'}|_{\theta=\theta^*}}$
变形：
$n^{-1}\sum_i \frac{\partial^2 l_w(x_i,y_i|\theta)}{\partial\theta \partial \theta'}|_{\theta=\theta^*}n^{\frac{1}{2}}(\theta-\theta^*)=n^{-1/2}\sum_i \frac{\partial l_w(x_i,y_i|\theta)}{\partial\theta}|_{\theta=\theta*}$
根据中心极限定理，右侧 $\rightsquigarrow N(0,G)$ ，而左侧依据概率收敛到 $H\sqrt{n}(\theta-\theta^*)$ ,从而直接得到结论
$\sqrt{n}(\theta-\theta^*)\rightsquigarrow N(0,H^{-1}GH^{-1})$