第六章参数估计

最新推荐文章于 2024-06-10 19:59:32 发布

约定写代码

最新推荐文章于 2024-06-10 19:59:32 发布

阅读量1.2k

点赞数 1

分类专栏：概率论与数理统计文章标签：矩估计极大似然估计

本文链接：https://blog.csdn.net/flying_all/article/details/72581327

版权

概率论与数理统计专栏收录该内容

16 篇文章 2 订阅

订阅专栏

　依据样本推出总体分布的参数，方法有两种：矩估计和极大似然估计。
　参数估计的形式有：点估计和区间估计。
　点估计：构造合适的统计量 $\widehat{\theta}=\widehat{\theta}(X_1,X_2,...X_n)$ 用来估计未知参数 $\theta$ ， $\widehat{\theta}$ 称为参数 $\theta$ 的点估计量。
　当给定样本观察值 $x_1,x_2,...x_n$ 时， $\widehat{\theta}(x_1,x_2,...x_n)$ 称为参数 $\theta$ 的点估计值。

矩估计

　矩估计：用样本矩估计总体矩，用样本矩的函数估计总体矩的函数。
　理论依据：辛钦大数定理、依概率收敛的性质
　矩的概念参见这里。

矩估计步骤

　设总体的k个未知参数为 $\theta_1...\theta_k$ ， $X_1,...X_n$ 样本来自总体X，假设总体的前k阶矩存在。
　1 建立总体分布的参数与总体矩之间的关系： $\mu_i=E(X^i)=h_i(\theta_1...\theta_k),i=1,2...k$
　2 求各参数关于k阶矩的反函数： $\theta_i=g_i(\mu_1...\mu_k)$ ，i=1,2…k
　3 以样本各阶矩 $A_1,A_2..A_k$ 代替总体X的各阶矩 $\mu_1...\mu_k$ ，得到各参数的矩估计： $\widehat{\theta}=g_i(A_1,A_2...A_k)，i=1,2...k$ 。
　在实际应用中，使用中心距也可以。
　矩估计不涉及总体分布。

极大似然估计

从这里开始

　极大似然是这样开始的。如果瓶子里有黑球和白球，已知有一种球概率是 $\dfrac{3}{4}$ ，但不知道具体是哪种球。采用放回抽样做了一次试验，取了5个球。这5个球的观察结果分别为黑、白、黑、黑、黑。估计一下黑球的概率。
　设 $X=\begin{cases} 1,取到黑球\\ 0,取到白球\end{cases}$ ，则X~B(1,p)。p为黑球的概率。p的可能取值是 $p=\dfrac{1}{4}$ ， $p=\dfrac{3}{4}$ 。抽取容量为5的样本 $X_1,X_2,...X_5$ ，观察值为1,0,1,1,1。
　当 $p=\dfrac{1}{4}$ ，出现本次观察结果的概率是 $(\dfrac{1}{4})^4\dfrac{3}{4}=\dfrac{3}{1024}$ 。
　当 $p=\dfrac{3}{4}$ ，出现本次观察结果的概率是 $(\dfrac{3}{4})^4\dfrac{1}{4}=\dfrac{81}{1024}$ 。
　 $\dfrac{81}{1024}>\dfrac{3}{1024}$ ，所以 $p=\dfrac{3}{4}$ 更有可能。于是 $\hat p=\dfrac{3}{4}$ 。
　说明两点。
　 1 这个容量为n的样本，是服从B(n,p)，p是未知参数。依据这个样本出现概率最大的时候，p的取值，作为p的估计值，叫做 $\hat p$ 。
　 2 因为样本是独立抽样，所以样本出现最大概率表示为 $\prod_{i=n}^{n}P(X_i)$ ，每个事件发生概率的乘积，称为似然函数。
　依据这两点，推广为一般的定义。

极大似然定义

　设离散型总体X~ $p(x;\theta)$ , $\theta \in$ 一个定义域。 $X_1,X_2,...X_n$ 为样本，观察值为 $x_1,x_2,...x_n$ ，则事件{ $X_1=x_1,X_2=x_2...X_n=x_n$ }发生的概率为似然函数： $L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)$ 。
　极大似然原理： $L(\hat \theta(x_1,x_2...x_n))=max_{\theta \in range}L(\theta)$ 。当似然函数取得最大值时候的参数 $\theta$ ，就是未知参数 $\theta$ 的估计值。
　 $\hat \theta(x_1,x_2...x_n)$ 称为 $\theta$ 的极大似然估计值。相应的统计量 $\hat \theta(X_1,X_2..X_n)$ 称为 $\theta$ 的极大似然估计量(MLE)。
　
　设连续型总体X概率密度函数为 $f(x;\theta)$ , $\theta \in$ 一个定义域。 $X_1,X_2,...X_n$ 为样本，观察值为 $x_1,x_2,...x_n$ ，则样本在观察值领域发生的概率为似然函数： $L(\theta)=\prod_{i=1}^{n}f(x_i;\theta)$ 。
　极大似然原理： $L(\hat \theta(x_1,x_2...x_n))=max_{\theta \in range}L(\theta)$ 。当似然函数取得最大值时候的参数 $\theta$ ，就是未知参数 $\theta$ 的估计值。
　
　说明：
　1 未知参数可能不是一个，设为 $\theta=(\theta_1,\theta_2...\theta_n)$ 。
　2 求 $L(\theta)$ 的最大值时，可转换为求 $lnL(\theta)$ 的最大值， $lnL(\theta)$ 称为对数似然函数。利用偏微分解得 $\hat \theta_i$ ，i=1,2…k。
　3 若 $L(\theta)$ 是关于某个 $\theta_i$ 的单调递增(减)函数，则 $\theta_i$ 的极大似然估计为 $\theta_i$ 的最大(小)值(与样本有关)。
　4 若 $\hat \theta$ 是 $\theta$ 的极大似然估计，则 $g(\theta)$ 的极大似然估计为 $g(\hat \theta)$ 。

极大似然估计步骤

　1 找到分布律或者概率密度函数。
　2 写出极大似然函数 $L(\theta)$ 。
　3 观察 $L(\theta)$ 是关于未知变量的单调函数吗？如果是，则根据单调性找到 $L(\theta)$ 取最大值时候的参数值。如果不是，判断函数对未知变量是否容易求导，选择是直接对原函数求导还是先求对数再求导。导函数为0的点就是参数的估计值。
　
　

比较

比较项	矩估计	极大似然估计
原理	辛钦大数定理;依概率收敛的性质	样本出现概率最大
计算方法	联立方程组；有几个变量需要几个方程	微分/偏微分
特点	与分布无关，计算矩或者中心矩	根据分布函数或者概率密度函数建立似然函数
条件	需要k阶矩存在	需要似然函数的导函数存在或者具有单调性

估计量的评价准则

无偏性准则

　若参数 $\theta$ 的估计量 $\hat \theta(X_1,X_2...X_n)$ ，满足 $E(\hat \theta)=\theta$ ，则称 $\hat \theta$ 是 $\theta$ 的无偏估计量。
　若 $E(\hat \theta) \ne\theta$ ，则 $|E(\hat \theta) -\theta|$ 称为估计量 $\hat \theta$ 的偏差。
　若 $lim_{n->+\infty} E(\hat \theta)=\theta$ ，则称 $\hat \theta$ 是 $\theta$ 的渐进无偏估计量。
　无偏估计量的统计意义是指在大量重复试验下，由 $\hat \theta(X_1,X_2...X_n)$ 给出的估计平均恰是 $\theta$ 。从而保证了 $\hat \theta$ 没有系统误差。

纠偏方法

　如果 $E(\hat \theta)=a\theta+b$ ，其中a,b是常数，且 $a ne 0$ ，则 $\dfrac{1}{a}(\hat \theta-b)$ 是 $\theta$ 的无偏估计。
　 $B_2=\dfrac{n-1}{n}S^2$

有效性准则

定义

　设 $\hat \theta_1，\hat \theta_2$ 是 $\theta$ 的两个无偏估计，如果 $D(\hat \theta_1) \le D(\hat \theta_2)$ ，对一切定义域的 $\theta$ 都成立，且不等号至少对定义域内的某一个 $\theta$ 成立，则称 $\hat \theta_1$ 比 $\hat \theta_2$ 有效。
　方差较小的估计量是一个更有效的估计量。

均方误差准则

　设 $\hat \theta$ 是 $\theta$ 的点估计，且方差存在，则称 $E(\hat\theta-\theta)^2$ 是 $\hat \theta$ 的均方误差，记为Mse( $\hat\theta$ )。
　若 $\hat \theta$ 是 $\theta$ 的无偏估计，则有 $Mse(\hat \theta)=D(\hat \theta)$ 。
　设 $\hat \theta_1，\hat \theta_2$ 是 $\theta$ 的点估计，如果 $Mse(\hat \theta_1)<Mse(\hat\theta_2)$ ，对定义域内的 $\theta$ 都成立，则称在均方误差准则下， $\hat \theta_1$ 要优于 $\hat\theta_2$ 。

相合性准则

　设 $\hat \theta(X_1,X_2...X_n)$ 为参数 $\theta$ 的估计量，若对于任意定义域内的 $\theta$ ，当 $n->+\infty$ ， $\hat \theta_n$ 依概率收敛于 $\theta$ ，则称 $\hat \theta_n$ 为 $\theta$ 的相合估计量或一致估计量。
　也就是说：对 $\forall \varepsilon>0$ ，有 $lim_{n->+\infty}P\{|\hat\theta-\theta|\ge\varepsilon\}=0$ 成立。

总结

　四个准则分别从期望、方差、差平方的期望、极限四个角度做了评价。简单概括是：无偏性： $E(\hat \theta)=\theta$ ；有效性： $D(\hat\theta)$ 尽可能小；均方误差准则： $E(\hat\theta-\theta)^2$ 尽可能小；相合性准则：　 $lim_{n->+\infty}P\{|\hat\theta-\theta|\ge\varepsilon\}=0$

练习

　1 对于任何分布， $E(\overline X)=E(X)$ :样本均值的数学期望等于总体的数学期望； $E(S^2)=D(X)$ :样本方差的数学期望等于总体的方差。
　2 $E[(X-c)^2]=D(X)+(E(X)-c)^2$
　3 $D(X)=E(X^2)-[E(X)]^2$

约定写代码

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第六章参数估计

依据样本推出总体分布的参数，方法有两种：矩估计和最大似然估计。　参数估计的形式有：点估计和区间估计。　点估计：构造合适的统计量θˆ=θˆ(X1,X2,...Xn)\widehat{\theta}=\widehat{\theta}(X_1,X_2,...X_n)用来估计未知参数θ\theta，θˆ\widehat{\theta}称为参数θ\theta的点估计量。　当给定样本观察值x1,x2
复制链接

扫一扫