关于《概率论与数理统计》最全参数估计总结

最新推荐文章于 2024-05-05 21:19:47 发布

BC_COM

最新推荐文章于 2024-05-05 21:19:47 发布

阅读量3.3k

点赞数

分类专栏： #概率论

本文链接：https://blog.csdn.net/BC_COM/article/details/105554955

版权

#概率论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

虽然非计算机专业，但因为一些原因打算学习西瓜书，可由于长时间没有碰过概率统计的知识，有所遗忘。所以特意重新复习了一遍类似的知识，写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。

参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种，一种是点估计(估计一个参数的值)，另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种，各种估计方法得出的结果不一定相同，很难简单的说一个必定优于另一个。

点估计

点估计主要有三种方法：矩估计、最大似然估计、贝叶斯估计。

矩估计

定义kk 阶样本原点矩为 $$a_k=\frac{1}{n}\sumn_{i=1}X_ik$$若k=1k=1则原点矩显然就是样本均值 X¯X¯；再定义kk 阶样本中心矩为

mk=1n∑i=1n(Xi−X¯)k.mk=1n∑i=1n(Xi−X¯)k.

另一方面，总体分布设为

f(x;θ1,θ2,...,θk)f(x;θ1,θ2,...,θk)

则有mm阶原点矩

αm=∫xmf(x;θ1,θ2,...,θk)dx.αm=∫xmf(x;θ1,θ2,...,θk)dx.

矩估计的思想就是：令样本kk 阶矩等于总体kk 阶矩，得到一组方程，由此反解出{θi}{θi}.
一般原则是要求解nn个参数，就选nn个最低阶的矩，令它们相等并反解。

例题：设X1,...,XnX1,...,Xn为区间 [θ1,θ2][θ1,θ2] 上均匀分布总体中抽出的nn个样本，估计出θ1,θ2θ1,θ2.
计算出样本中心矩m1=∑iXi/nm1=∑iXi/n和m2=∑iX2i/nm2=∑iXi2/n.再计算出总体中心矩分别为θ1+θ22θ1+θ22 和 (θ1+θ2)212(θ1+θ2)212，令它们对应相等，解出来两个 θθ 即可。

极大似然估计

符号同前，样本(X1,...,Xn)(X1,...,Xn)的联合概率密度(PDF)为

f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...,θk).f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...,θk).

现在反过来，固定样本{Xi}{Xi}而把上面PDF看作关于{θi}{θi}的“密度函数”，加引号是因为实际上{θi}{θi}是固定参数而非随机变量，这里可以叫做似然函数(likehood, 而非probability)。既然似然函数的{Xi}{Xi}固定，那么可以认为最可能的{θi}{θi}取值必然是使得似然函数最大的那组取值。也就是说{θi}{θi}的估计值是使得下面表达式最大的那个值

L(X−1,⋯,Xn;θ1,⋯,θk)=∏i=1nf(Xi;θ1,⋯,θk)L(X−1,⋯,Xn;θ1,⋯,θk)=∏i=1nf(Xi;θ1,⋯,θk)

上式为累乘，取对数变为求和累加，称为对数似然函数(因为对数函数也同一点取得最大值)

lnL=∑i=1nlnf(Xi;θ1,⋯,θk)lnL=∑i=1nlnf(Xi;θ1,⋯,θk)

如果函数性质足够好，用上式分别对{θi}{θi}求导令其为零，求得驻点再验证极值点和最值点。

例题：设X1,⋯,XnX1,⋯,Xn为从[0,θ][0,θ]均匀分布总体中抽取的样本，估计参数θθ.
直接看出来单个样本密度函数为θ−1θ−1，所以似然函数为

L={θ−n0<Xi<θ，i=1,⋯,n\0otherL={θ−n0<Xi<θ，i=1,⋯,n\0other
函数性质不够好，需要直接求最大值：在函数非零区间内，θθ越小函数值越大，而θθ最小值为max{Xi}max{Xi}，这就是估计值。
所以直观看来，极大似然估计给出了一个比较奇怪的估计值： 它认为样本的最大值就是总体的上界。

贝叶斯估计

贝叶斯估计参数时，最好需要对参数的分布状况有一个先验的了解，以单参数θθ为例，假设根据经验，其先验分布为h(θ)h(θ).这里虽然θθ的确是一个确定的参数，谈不上概率分布，但是在贝叶斯估计这套理论中，必须根据经验或者历史给出这么一个"先验分布"。h(θ)h(θ)必须非负，但不要求归一，不归一时称为"广义先验密度"。
参数为θθ且样本为{Xi}{Xi}的概率为(PDF)

h(\theta)\prod_{i=1}^nf(X_i,\theta)$$这样，它关于$\{X_i\}$的边缘密度为
$$p(X_1,\cdots,X_n)=\int h(\theta)\prod_{i=1}^nf(X_i,\theta){\rm d}\theta$$由此得到在$\{X_i\}$给定条件下，$\theta$的条件概率密度为
$$h(\theta|X_1,\cdots,X_n)=h(\theta)\prod_{i=1}^nf(X_i,\theta)/p(X_1,\cdots,X_n)$$上式给出来了在抽到样本$\{X_i\}$情况下的参数$\theta$的概率密度，称为“后验密度”，**形式上看就是一个带有连续参数的贝叶斯公式**。获得上面条件概率表达式以后，$\theta$的估计值如何求，有多种方式，比如，求这个分布的均值作为$\theta$的估计值。

> 例题：做$n$次独立重复试验，每次观察事件$A$是否发生，$A$在每次试验中发生的概率为$p$，用试验结果估计$p$.
> 设先验密度为$h(p)$，设$A$发生记为$X_i=1$，否则记为$X_i=0$. 对于样本$X_i$，$P(X_i=1)=p$而$P(X_i=0)=1-p$，所以事件$(X_1,\cdots,X_n)$概率密度为$$p^S(1-p)^{n-S}$$其中$S=\sum_iX_i$，所以后验密度为$$h(p|X_1,\cdots,X_n)=\frac{h(p)p^S(1-p)^{n-S}}{\int_0^1h(p)p^S(1-p)^{n-S}{\rm d}p}$$不妨取上式均值$\hat{p}$为$p$的估计值。如果取$h(p)$为均匀分布，则经过化简计算可得$\hat{p}=(S+1)/(n+2)$.
> 用期望(一阶原点矩)去估计的结果是$S/n$，在$n$很大时，两者相同；在$n$很小，比如$n=1,S=1$时，期望估计给出$\hat{p}=1$，而贝叶斯估计给出$\hat{p}=2/3$.

###点估计的准则
前面提到的参数的点估计方法有三种，在确定的情况下，应该选择哪种估计更恰当，这就是估计优良性准则的问题。
####无偏性
字面意思就是一个估计没有偏差。
> 定义：假设某总体的分布包含位置参数$\theta_1,\cdots,\theta_k$，而$X_1,\cdots,X_n$为抽取出的样本，要估计的统计量设为$g(\theta_1,\cdots,\theta_k)$，$g(\cdot)$为一已知函数，设$\hat{g}(X_1,\cdots,X_n)$为一个估计量，如果对于任何的$\theta_1,\cdots,\theta_k$取值，都有
$$E_{\theta_1,\cdots,\theta_k}[\hat{g}(X_1,\cdots,X_n)]=g(\theta_1,\cdots,\theta_k)$$则称$\hat{g}(\cdot)$为$g$的一个无偏估计量。

上式$E(\cdot)$求期望算符有下标，表示在系统参量分别为某$\theta_1,\cdots,\theta_k$时，抽取样本$\{X_i\}$，计算$\hat{g}$，再对不同抽取的样本进行求期望操作(**固定**$\theta$，**对样本求期望**)。**上面定义并未对样本容量**$n$**提出要求。**
注意，$E(\cdot)$**括号里面本质上是一个随机变量**，所以这才能求期望。

> 例题：可以证明，样本均值$\bar{X}$是总体均值$\mu$的无偏估计，样本方差$s^2=\frac{1}{n-1}\sum_i(X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计；但是样本中心二阶矩$\frac{1}{n}\sum_i(X_i-\bar{X})^2$并非总体方差的无偏估计，而且样本标准差$s$并非总体标准差的无偏估计。

在前面的极大似然估计那里的例题，给出的$\theta$的估计值是抽取到的样本的最大值，可以证明它并非无偏估计。
>例题：如何把上面的$\hat{\theta}$修正为无偏估计。
>先计算出$E_{\theta}(\hat{\theta})$.前面说过$E(\cdot)$里面的$\hat{\theta}$本质上是一个随机变量，为求其期望，需要求出它的密度分布函数PDF，为此可以先求出它的累积分布函数CDF。下式为$\hat{\theta}$的CDF$$G_{\theta}(x)=\begin{cases}0&x\leqslant0\\\displaystyle\left( \frac{x}{\theta}\right)^n&0< x<\theta\\1&x\geqslant\theta\end{cases}$$对于上式第二行的解释：当$0< x<\theta$，则想要事件$\{\hat{\theta}<x\}$发生，则必须有$$\{X_1<x\},\{X_2<x\},\cdots,\{X_n<x\}$$同时发生(因为$\hat{\theta}$为它们中的最大值)，而它们是独立事件，每个事件发生的概率$P(X_i<x)=x/\theta$ (因为均匀分布)。对上式求导得到随机变量$\hat{\theta}$的PDF为$$g_{\theta}(x)=\begin{cases}nx^{n-1}/\theta^n&0<x<\theta\\0&\text{other}\end{cases}$$有了PDF就可以求期望$$E_{\theta}(\hat{\theta})=\int_0^{\theta}xg_\theta(x){\rm d}x=\frac{n}{n+1}\theta$$所以如果要使用这个估计值，就应该**乘以**$\frac{n+1}{n}$**因子才能成为无偏估计**。

####相合性
相合性的字面意思和无偏性几乎一样，但数学本质是不同的，是对参数估计量**完全不同的两个方面的描写**。大数定理说的是，如果$X_1,\cdots,X_n$独立同分布均值为$\mu$，则对于任意给定的正数$\varepsilon$都有$$\lim_{n\to\infty}P(|\bar{X}-\mu|\geqslant\varepsilon)=0.$$相合性大致相当于大数定理的一种“推广”。

> 定义：设总体分布依赖于参数$\theta_1,\cdots,\theta_k$，而$g(\theta_1,\cdots,\theta_k)$是一个给定的函数。设$X_1,\cdots,X_n$为抽取的样本，而$\hat{g}(X_1,\cdots,X_n)$为一个估计量，则对于任意的正数$\varepsilon$，有$$\lim_{n\to \infty}P_{\theta_1,\cdots,\theta_k}(|\hat{g}(X_1,\cdots,X_n)-g(\theta_1,\cdots,\theta_k)|\geqslant\varepsilon)=0h(\theta)\prod_{i=1}^nf(X_i,\theta)$$这样，它关于$\{X_i\}$的边缘密度为$$p(X_1,\cdots,X_n)=\int h(\theta)\prod_{i=1}^nf(X_i,\theta){\rm d}\theta$$由此得到在$\{X_i\}$给定条件下，$\theta$的条件概率密度为$$h(\theta|X_1,\cdots,X_n)=h(\theta)\prod_{i=1}^nf(X_i,\theta)/p(X_1,\cdots,X_n)$$上式给出来了在抽到样本$\{X_i\}$情况下的参数$\theta$的概率密度，称为“后验密度”，**形式上看就是一个带有连续参数的贝叶斯公式**。获得上面条件概率表达式以后，$\theta$的估计值如何求，有多种方式，比如，求这个分布的均值作为$\theta$的估计值。> 例题：做$n$次独立重复试验，每次观察事件$A$是否发生，$A$在每次试验中发生的概率为$p$，用试验结果估计$p$.> 设先验密度为$h(p)$，设$A$发生记为$X_i=1$，否则记为$X_i=0$. 对于样本$X_i$，$P(X_i=1)=p$而$P(X_i=0)=1-p$，所以事件$(X_1,\cdots,X_n)$概率密度为$$p^S(1-p)^{n-S}$$其中$S=\sum_iX_i$，所以后验密度为$$h(p|X_1,\cdots,X_n)=\frac{h(p)p^S(1-p)^{n-S}}{\int_0^1h(p)p^S(1-p)^{n-S}{\rm d}p}$$不妨取上式均值$\hat{p}$为$p$的估计值。如果取$h(p)$为均匀分布，则经过化简计算可得$\hat{p}=(S+1)/(n+2)$.> 用期望(一阶原点矩)去估计的结果是$S/n$，在$n$很大时，两者相同；在$n$很小，比如$n=1,S=1$时，期望估计给出$\hat{p}=1$，而贝叶斯估计给出$\hat{p}=2/3$.###点估计的准则前面提到的参数的点估计方法有三种，在确定的情况下，应该选择哪种估计更恰当，这就是估计优良性准则的问题。####无偏性字面意思就是一个估计没有偏差。> 定义：假设某总体的分布包含位置参数$\theta_1,\cdots,\theta_k$，而$X_1,\cdots,X_n$为抽取出的样本，要估计的统计量设为$g(\theta_1,\cdots,\theta_k)$，$g(\cdot)$为一已知函数，设$\hat{g}(X_1,\cdots,X_n)$为一个估计量，如果对于任何的$\theta_1,\cdots,\theta_k$取值，都有$$E_{\theta_1,\cdots,\theta_k}[\hat{g}(X_1,\cdots,X_n)]=g(\theta_1,\cdots,\theta_k)$$则称$\hat{g}(\cdot)$为$g$的一个无偏估计量。上式$E(\cdot)$求期望算符有下标，表示在系统参量分别为某$\theta_1,\cdots,\theta_k$时，抽取样本$\{X_i\}$，计算$\hat{g}$，再对不同抽取的样本进行求期望操作(**固定**$\theta$，**对样本求期望**)。**上面定义并未对样本容量**$n$**提出要求。**注意，$E(\cdot)$**括号里面本质上是一个随机变量**，所以这才能求期望。> 例题：可以证明，样本均值$\bar{X}$是总体均值$\mu$的无偏估计，样本方差$s^2=\frac{1}{n-1}\sum_i(X_i-\bar{X})^2$是总体方差$\sigma^2$的无偏估计；但是样本中心二阶矩$\frac{1}{n}\sum_i(X_i-\bar{X})^2$并非总体方差的无偏估计，而且样本标准差$s$并非总体标准差的无偏估计。在前面的极大似然估计那里的例题，给出的$\theta$的估计值是抽取到的样本的最大值，可以证明它并非无偏估计。>例题：如何把上面的$\hat{\theta}$修正为无偏估计。>先计算出$E_{\theta}(\hat{\theta})$.前面说过$E(\cdot)$里面的$\hat{\theta}$本质上是一个随机变量，为求其期望，需要求出它的密度分布函数PDF，为此可以先求出它的累积分布函数CDF。下式为$\hat{\theta}$的CDF$$G_{\theta}(x)=\begin{cases}0&x\leqslant0\\\displaystyle\left( \frac{x}{\theta}\right)^n&0< x<\theta\\1&x\geqslant\theta\end{cases}$$对于上式第二行的解释：当$0< x<\theta$，则想要事件$\{\hat{\theta}<x\}$发生，则必须有$$\{X_1<x\},\{X_2<x\},\cdots,\{X_n<x\}$$同时发生(因为$\hat{\theta}$为它们中的最大值)，而它们是独立事件，每个事件发生的概率$P(X_i<x)=x/\theta$ (因为均匀分布)。对上式求导得到随机变量$\hat{\theta}$的PDF为$$g_{\theta}(x)=\begin{cases}nx^{n-1}/\theta^n&0<x<\theta\\0&\text{other}\end{cases}$$有了PDF就可以求期望$$E_{\theta}(\hat{\theta})=\int_0^{\theta}xg_\theta(x){\rm d}x=\frac{n}{n+1}\theta$$所以如果要使用这个估计值，就应该**乘以**$\frac{n+1}{n}$**因子才能成为无偏估计**。####相合性相合性的字面意思和无偏性几乎一样，但数学本质是不同的，是对参数估计量**完全不同的两个方面的描写**。大数定理说的是，如果$X_1,\cdots,X_n$独立同分布均值为$\mu$，则对于任意给定的正数$\varepsilon$都有$$\lim_{n\to\infty}P(|\bar{X}-\mu|\geqslant\varepsilon)=0.$$相合性大致相当于大数定理的一种“推广”。> 定义：设总体分布依赖于参数$\theta_1,\cdots,\theta_k$，而$g(\theta_1,\cdots,\theta_k)$是一个给定的函数。设$X_1,\cdots,X_n$为抽取的样本，而$\hat{g}(X_1,\cdots,X_n)$为一个估计量，则对于任意的正数$\varepsilon$，有$$\lim_{n\to \infty}P_{\theta_1,\cdots,\theta_k}(|\hat{g}(X_1,\cdots,X_n)-g(\theta_1,\cdots,\theta_k)|\geqslant\varepsilon)=0

由上面的定义，大数定理无非就是表达了"样本均值是总体均值的相合的估计量"这层意思。注意这里没有对不同的样本求期望，而是令样本容量趋于无穷，这是和无偏性的差别。

最小方差误差

如果现在有两个无偏估计，要在一起比较性能，则可以比较其方差的大小，方差越小，估计量越稳定。上面说过了，估计量g^(X1,⋯,Xn)g^(X1,⋯,Xn)本质上还是一个随机变量，其随机性来自于{Xi}{Xi}的随机性。所以估计量的方差，就是这个随机变量通常意义下的方差而已。
如果一个无偏估计g^g^对于任何其他的无偏估计g^1g^1以及任何的{θi}{θi}取值，都有更小的方差，则称此g^g^为一个最小方差无偏估计(MVU)。

区间估计

前面说的参数估计，是利用各种方法把一个分布中的未知参数根据样本求出估计值，所以叫做点估计。区间估计则是把未知参数估计到一个区间中，并给出置信系数。

定义：给定一个小量α∈[0,1]α∈[0,1]，下式概率等于1−α1−α，对于参数θθ的任何取值都成立，则称区间估计[θ^1,θ^2][θ^1,θ^2]的置信系数为1−α1−α.

Pθ(θ^1(X1,⋯,Xn)⩽θ⩽θ^2(X1,⋯,Xn))Pθ(θ^1(X1,⋯,Xn)⩽θ⩽θ^2(X1,⋯,Xn))

有时候难以找到恰当的αα恰好使得上式概率为1−α1−α，常常找到一个稍大的ββ，使得上式不小于1−β1−β。所以如果找到这样的ββ，则称1−β1−β为区间的置信水平。置信系数为最大的置信水平。

枢轴变量法

先来定义某分布(比如正态分布)的上ββ分位点Φ(μβ)=1−βΦ(μβ)=1−β，其中Φ(⋅)Φ(⋅)为一个累积分布函数CDF. 或者如下图，图中是一个分布的PDF，μβμβ为其上ββ分位点。

例题：样本X1,⋯,XnX1,⋯,Xn来自于正态总体N(μ,σ2)N(μ,σ2)，σ2σ2已知，根据样本求μμ的区间估计。
由概率论知识，n−−√(X¯−μ)/σ∼N(0,1)n(X¯−μ)/σ∼N(0,1)，以ΦN(x)ΦN(x)表示标准正态分布的CDF，则有

P(−μα/2<n−−√(X¯−μ)/σ<μα/2)=Φ(μα/2)−Φ(−μα/2)=1−αP(−μα/2<n(X¯−μ)/σ<μα/2)=Φ(μα/2)−Φ(−μα/2)=1−α

⇒P(X¯−σμα/2⩽μ⩽X¯+σμα/2)=1−α⇒P(X¯−σμα/2⩽μ⩽X¯+σμα/2)=1−α
依据定义，μμ的置信系数为1−α1−α的区间估计是[X¯−σμα/2,X¯+σμα/2][X¯−σμα/2,X¯+σμα/2].

在此问题中，随机变量Y=n−−√(X¯−μ)/σY=n(X¯−μ)/σ起到了中间人的作用，所以叫它枢轴变量。总的思路是，先利用概率论知识找枢轴变量，使得枢轴变量整体服从某个完全已知的分布(此问题中为N(0,1)N(0,1))，再根据分位点的意义，列出方程P(A<Y<B)=1−αP(A<Y<B)=1−α，其中A,BA,B为和αα有关的分位点。最后将不等式A<Y<BA<Y<B改写成a<θ<ba<θ<b的形式，结合区间估计的定义即可得出结论。

另外，此问题中σ2σ2已知，如果未知也可以做，做法如下：
根据概率论知识，有枢轴变量n−−√(X¯−μ)/sn(X¯−μ)/s服从自由度为n−1n−1的tt分布(此分布完全确定)，其余步骤模仿例题，得出置信系数为1−α1−α的区间估计为

[X¯−stn−1(α/2)/n−−√,X¯+stn−1(α/2)/n−−√][X¯−stn−1(α/2)/n,X¯+stn−1(α/2)/n]

其中tn−1(α/2)tn−1(α/2)为分位点。

如果找到的枢轴变量不严格满足某特定已知分布，但nn很大以至于可以近似满足某已知分布，则可以结合中心极限的思想，做一个近似，姑且认为枢轴变量满足。这叫做大样本近似。

置信界(单侧估计)

前面的枢轴变量法找的是区间的两个端点，有时候不需要两个端点，而只需要估计参数是不是大于(小于)某个值。

若对参数θθ的一切取值，有

Pθ(Θ(X1,⋯,Xn)⩾θ)=1−αPθ(Θ(X1,⋯,Xn)⩾θ)=1−α
成立，则称ΘΘ为一个置信系数为1−α1−α的置信上界。若将⩾⩾换为⩽⩽则称ΘΘ为一个置信系数为1−α1−α的置信下界。

解决问题的方法和两个端点的枢轴变量法一样，只不过不等式都变成了单边的了而已。

贝叶斯法

贝叶斯法处理统计问题的思路都是相似的，这里还是必须先假定一个先验密度函数h(θ)h(θ)，设样本X1,⋯,XnX1,⋯,Xn，计算出后验密度函数h(θ|X1,⋯,Xn)h(θ|X1,⋯,Xn)，找出两个值θ1,θ2θ1,θ2使得

∫θ2θ1h(θ|X1,⋯,Xn)dθ=1−α∫θ1θ2h(θ|X1,⋯,Xn)dθ=1−α

成立，则区间[θ1,θ2][θ1,θ2]可以作为一个区间估计，后验信度为1−α1−α.
一般来说会有很多θ1,θ2θ1,θ2满足条件，选择的原则通常是使得|θ1−θ2||θ1−θ2|最小。

贝叶斯法和枢轴变量法的区别

枢轴变量那一套方法是奈曼理论(J.Neyman)，而贝叶斯(Bayes)理论与其观念上有根本区别。奈曼理论中，置信系数为0.950.95的确切意思是：对于给定的参数θθ，抽取样本，根据样本计算区间，则这样的行为每进行100100次，平均有且仅有9595次计算出来的区间包含真实的参数θθ；而贝叶斯法的后验信度为0.950.95的意思是：计算出来的区间包含真实参数的相信程度为0.950.95.

BC_COM

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
关于《概率论与数理统计》最全参数估计总结

虽然非计算机专业，但因为一些原因打算学习西瓜书，可由于长时间没有碰过概率统计的知识，有所遗忘。所以特意重新复习了一遍类似的知识，写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种，一种是点估计(估计一个参数的值)，另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种，各种估计方法得出的结果不一定...
复制链接

扫一扫