关于参数估计

虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。

参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种,一种是点估计(估计一个参数的值),另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种,各种估计方法得出的结果不一定相同,很难简单的说一个必定优于另一个。

点估计

点估计主要有三种方法:矩估计、最大似然估计、贝叶斯估计。

矩估计

定义\(k\) 阶样本原点矩\[a_k=\frac{1}{n}\sum^n_{i=1}X_i^k\]\(k=1\)则原点矩显然就是样本均值 \(\bar{X}\);再定义\(k\) 阶样本中心矩
\[m_k=\frac{1}{n}\sum^n_{i=1}(X_i-\bar{X})^k.\]
另一方面,总体分布设为\[f(x;\theta_1,\theta_2,...,\theta_k)\]
则有\(m\)阶原点矩\[\alpha_m=\int x^mf(x;\theta_1,\theta_2,...,\theta_k){\rm d}x.\]
矩估计的思想就是:令样本\(k\) 阶矩等于总体\(k\) 阶矩,得到一组方程,由此反解出\(\{\theta_i\}\).
一般原则是要求解\(n\)个参数,就选\(n\)个最低阶的矩,令它们相等并反解。

例题:设\(X_1,...,X_n\)为区间 \([\theta_1,\theta_2]\) 上均匀分布总体中抽出的\(n\)个样本,估计出\(\theta_1,\theta_2\).
计算出样本中心矩\(m_1=\sum_iX_i/n\)\(m_2=\sum_iX_i^2/n\).再计算出总体中心矩分别为\(\frac{\theta_1+\theta_2}{2}\)\(\frac{(\theta_1+\theta_2)^2}{12}\),令它们对应相等,解出来两个 \(\theta\) 即可。

极大似然估计

符号同前,样本\((X_1,...,X_n)\)的联合概率密度(PDF)为\[f(x_1;\theta_1,...,\theta_k)f(x_2;\theta_1,...,\theta_k)...f(x_n;\theta_1,...,\theta_k).\]
现在反过来,固定样本\(\{X_i\}\)而把上面PDF看作关于\(\{\theta_i\}\)的“密度函数”,加引号是因为实际上\(\{\theta_i\}\)是固定参数而非随机变量,这里可以叫做似然函数(likehood, 而非probability)。既然似然函数的\(\{X_i\}\)固定,那么可以认为最可能的\(\{\theta_i\}\)取值必然是使得似然函数最大的那组取值。也就是说\(\{\theta_i\}\)的估计值是使得下面表达式最大的那个值\[L(X-1,\cdots,X_n;\theta_1,\cdots,\theta_k)=\prod_{i=1}^nf(X_i;\theta_1,\cdots,\theta_k)\]上式为累乘,取对数变为求和累加,称为对数似然函数(因为对数函数也同一点取得最大值)\[{\rm ln}L=\sum_{i=1}^n{\rm ln}f(X_i;\theta_1,\cdots,\theta_k)\]如果函数性质足够好,用上式分别对\(\{\theta_i\}\)求导令其为零,求得驻点再验证极值点和最值点。

例题:设\(X_1,\cdots,X_n\)为从\([0,\theta]\)均匀分布总体中抽取的样本,估计参数\(\theta\).
直接看出来单个样本密度函数为\(\theta^{-1}\),所以似然函数为\[L=\begin{cases}\theta^{-n}&0<X_i<\theta,i=1,\cdots,n\\0&{other}\end{cases}\]函数性质不够好,需要直接求最大值:在函数非零区间内,\(\theta\)越小函数值越大,而\(\theta\)最小值为\(max\{X_i\}\),这就是估计值。
所以直观看来,极大似然估计给出了一个比较奇怪的估计值:它认为样本的最大值就是总体的上界

贝叶斯估计

贝叶斯估计参数时,最好需要对参数的分布状况有一个先验的了解,以单参数\(\theta\)为例,假设根据经验,其先验分布为\(h(\theta)\).这里虽然\(\theta\)的确是一个确定的参数,谈不上概率分布,但是在贝叶斯估计这套理论中,必须根据经验或者历史给出这么一个"先验分布"\(h(\theta)\)必须非负,但不要求归一,不归一时称为"广义先验密度"。
参数为\(\theta\)且样本为\(\{X_i\}\)的概率为(PDF)
\[h(\theta)\prod_{i=1}^nf(X_i,\theta)\]这样,它关于\(\{X_i\}\)的边缘密度为
\[p(X_1,\cdots,X_n)=\int h(\theta)\prod_{i=1}^nf(X_i,\theta){\rm d}\theta\]由此得到在\(\{X_i\}\)给定条件下,\(\theta\)的条件概率密度为
\[h(\theta|X_1,\cdots,X_n)=h(\theta)\prod_{i=1}^nf(X_i,\theta)/p(X_1,\cdots,X_n)\]上式给出来了在抽到样本\(\{X_i\}\)情况下的参数\(\theta\)的概率密度,称为“后验密度”,形式上看就是一个带有连续参数的贝叶斯公式。获得上面条件概率表达式以后,\(\theta\)的估计值如何求,有多种方式,比如,求这个分布的均值作为\(\theta\)的估计值。

例题:做\(n\)次独立重复试验,每次观察事件\(A\)是否发生,\(A\)在每次试验中发生的概率为\(p\),用试验结果估计\(p\).
设先验密度为\(h(p)\),设\(A\)发生记为\(X_i=1\),否则记为\(X_i=0\). 对于样本\(X_i\)\(P(X_i=1)=p\)\(P(X_i=0)=1-p\),所以事件\((X_1,\cdots,X_n)\)概率密度为\[p^S(1-p)^{n-S}\]其中\(S=\sum_iX_i\),所以后验密度为\[h(p|X_1,\cdots,X_n)=\frac{h(p)p^S(1-p)^{n-S}}{\int_0^1h(p)p^S(1-p)^{n-S}{\rm d}p}\]不妨取上式均值\(\hat{p}\)\(p\)的估计值。如果取\(h(p)\)为均匀分布,则经过化简计算可得\(\hat{p}=(S+1)/(n+2)\).
用期望(一阶原点矩)去估计的结果是\(S/n\),在\(n\)很大时,两者相同;在\(n\)很小,比如\(n=1,S=1\)时,期望估计给出\(\hat{p}=1\),而贝叶斯估计给出\(\hat{p}=2/3\).

点估计的准则

前面提到的参数的点估计方法有三种,在确定的情况下,应该选择哪种估计更恰当,这就是估计优良性准则的问题。

无偏性

字面意思就是一个估计没有偏差。

定义:假设某总体的分布包含位置参数\(\theta_1,\cdots,\theta_k\),而\(X_1,\cdots,X_n\)为抽取出的样本,要估计的统计量设为\(g(\theta_1,\cdots,\theta_k)\)\(g(\cdot)\)为一已知函数,设\(\hat{g}(X_1,\cdots,X_n)\)为一个估计量,如果对于任何的\(\theta_1,\cdots,\theta_k\)取值,都有
\[E_{\theta_1,\cdots,\theta_k}[\hat{g}(X_1,\cdots,X_n)]=g(\theta_1,\cdots,\theta_k)\]则称\(\hat{g}(\cdot)\)\(g\)的一个无偏估计量。

上式\(E(\cdot)\)求期望算符有下标,表示在系统参量分别为某\(\theta_1,\cdots,\theta_k\)时,抽取样本\(\{X_i\}\),计算\(\hat{g}\),再对不同抽取的样本进行求期望操作(固定\(\theta\)对样本求期望)。上面定义并未对样本容量\(n\)提出要求。
注意,\(E(\cdot)\)括号里面本质上是一个随机变量,所以这才能求期望。

例题:可以证明,样本均值\(\bar{X}\)是总体均值\(\mu\)的无偏估计,样本方差\(s^2=\frac{1}{n-1}\sum_i(X_i-\bar{X})^2\)是总体方差\(\sigma^2\)的无偏估计;但是样本中心二阶矩\(\frac{1}{n}\sum_i(X_i-\bar{X})^2\)并非总体方差的无偏估计,而且样本标准差\(s\)并非总体标准差的无偏估计。

在前面的极大似然估计那里的例题,给出的\(\theta\)的估计值是抽取到的样本的最大值,可以证明它并非无偏估计。

例题:如何把上面的\(\hat{\theta}\)修正为无偏估计。
先计算出\(E_{\theta}(\hat{\theta})\).前面说过\(E(\cdot)\)里面的\(\hat{\theta}\)本质上是一个随机变量,为求其期望,需要求出它的密度分布函数PDF,为此可以先求出它的累积分布函数CDF。下式为\(\hat{\theta}\)的CDF\[G_{\theta}(x)=\begin{cases}0&x\leqslant0\\\displaystyle\left( \frac{x}{\theta}\right)^n&0< x<\theta\\1&x\geqslant\theta\end{cases}\]对于上式第二行的解释:当\(0< x<\theta\),则想要事件\(\{\hat{\theta}<x\}\)发生,则必须有\[\{X_1<x\},\{X_2<x\},\cdots,\{X_n<x\}\]同时发生(因为\(\hat{\theta}\)为它们中的最大值),而它们是独立事件,每个事件发生的概率\(P(X_i<x)=x/\theta\) (因为均匀分布)。对上式求导得到随机变量\(\hat{\theta}\)的PDF为\[g_{\theta}(x)=\begin{cases}nx^{n-1}/\theta^n&0<x<\theta\\0&\text{other}\end{cases}\]有了PDF就可以求期望\[E_{\theta}(\hat{\theta})=\int_0^{\theta}xg_\theta(x){\rm d}x=\frac{n}{n+1}\theta\]所以如果要使用这个估计值,就应该乘以\(\frac{n+1}{n}\)因子才能成为无偏估计

相合性

相合性的字面意思和无偏性几乎一样,但数学本质是不同的,是对参数估计量完全不同的两个方面的描写。大数定理说的是,如果\(X_1,\cdots,X_n\)独立同分布均值为\(\mu\),则对于任意给定的正数\(\varepsilon\)都有\[\lim_{n\to\infty}P(|\bar{X}-\mu|\geqslant\varepsilon)=0.\]相合性大致相当于大数定理的一种“推广”。

定义:设总体分布依赖于参数\(\theta_1,\cdots,\theta_k\),而\(g(\theta_1,\cdots,\theta_k)\)是一个给定的函数。设\(X_1,\cdots,X_n\)为抽取的样本,而\(\hat{g}(X_1,\cdots,X_n)\)为一个估计量,则对于任意的正数\(\varepsilon\),有\[\lim_{n\to \infty}P_{\theta_1,\cdots,\theta_k}(|\hat{g}(X_1,\cdots,X_n)-g(\theta_1,\cdots,\theta_k)|\geqslant\varepsilon)=0\]

由上面的定义,大数定理无非就是表达了"样本均值是总体均值的相合的估计量"这层意思。注意这里没有对不同的样本求期望,而是令样本容量趋于无穷,这是和无偏性的差别

最小方差误差

如果现在有两个无偏估计,要在一起比较性能,则可以比较其方差的大小,方差越小,估计量越稳定。上面说过了,估计量\(\hat{g}(X_1,\cdots,X_n)\)本质上还是一个随机变量,其随机性来自于\(\{X_i\}\)的随机性。所以估计量的方差,就是这个随机变量通常意义下的方差而已。
如果一个无偏估计\(\hat{g}\)对于任何其他的无偏估计\(\hat{g}_1\)以及任何的\(\{\theta_i\}\)取值,都有更小的方差,则称此\(\hat{g}\)为一个最小方差无偏估计(MVU)。

区间估计

前面说的参数估计,是利用各种方法把一个分布中的未知参数根据样本求出估计值,所以叫做点估计。区间估计则是把未知参数估计到一个区间中,并给出置信系数。

定义:给定一个小量\(\alpha\in[0,1]\),下式概率等于\(1-\alpha\),对于参数\(\theta\)的任何取值都成立,则称区间估计\([\hat{\theta}_1,\hat{\theta}_2]\)的置信系数为\(1-\alpha\).\[P_{\theta}(\hat{\theta}_1(X_1,\cdots,X_n)\leqslant\theta\leqslant \hat{\theta}_2(X_1,\cdots,X_n))\]

有时候难以找到恰当的\(\alpha\)恰好使得上式概率为\(1-\alpha\),常常找到一个稍大的\(\beta\),使得上式不小于\(1-\beta\)。所以如果找到这样的\(\beta\),则称\(1-\beta\)为区间的置信水平。置信系数为最大的置信水平

枢轴变量法

先来定义某分布(比如正态分布)的上\(\beta\)分位点\(\varPhi(\mu_\beta)=1-\beta\),其中\(\varPhi(\cdot)\)为一个累积分布函数CDF. 或者如下图,图中是一个分布的PDF,\(\mu_\beta\)为其上\(\beta\)分位点。
SouthEast

例题:样本\(X_1,\cdots,X_n\)来自于正态总体\(N(\mu,\sigma^2)\)\(\sigma^2\)已知,根据样本求\(\mu\)的区间估计。
由概率论知识,\(\sqrt{n}(\bar{X}-\mu)/\sigma\sim N(0,1)\),以\(\varPhi_N(x)\)表示标准正态分布的CDF,则有\[P(-\mu_{\alpha/2}<\sqrt{n}(\bar{X}-\mu)/\sigma<\mu_{\alpha/2})=\varPhi(\mu_{\alpha/2})-\varPhi(-\mu_{\alpha/2})=1-\alpha\] \[\Rightarrow P(\bar{X}-\sigma\mu_{\alpha/2}\leqslant\mu\leqslant\bar{X}+\sigma\mu_{\alpha/2})=1-\alpha\]依据定义,\(\mu\)的置信系数为\(1-\alpha\)的区间估计是\([\bar{X}-\sigma\mu_{\alpha/2},\bar{X}+\sigma\mu_{\alpha/2}]\).

在此问题中,随机变量\(Y=\sqrt{n}(\bar{X}-\mu)/\sigma\)起到了中间人的作用,所以叫它枢轴变量。总的思路是,先利用概率论知识找枢轴变量,使得枢轴变量整体服从某个完全已知的分布(此问题中为\(N(0,1)\)),再根据分位点的意义,列出方程\(P(A<Y<B)=1-\alpha\),其中\(A,B\)为和\(\alpha\)有关的分位点。最后将不等式\(A<Y<B\)改写成\(a<\theta<b\)的形式,结合区间估计的定义即可得出结论。

另外,此问题中\(\sigma^2\)已知,如果未知也可以做,做法如下:
根据概率论知识,有枢轴变量\(\sqrt{n}(\bar{X}-\mu)/s\)服从自由度为\(n-1\)\(t\)分布(此分布完全确定),其余步骤模仿例题,得出置信系数为\(1-\alpha\)的区间估计为\[[\bar{X}-st_{n-1}(\alpha/2)/\sqrt{n},\bar{X}+st_{n-1}(\alpha/2)/\sqrt{n}]\]其中\(t_{n-1}(\alpha/2)\)为分位点。

如果找到的枢轴变量不严格满足某特定已知分布,但\(n\)很大以至于可以近似满足某已知分布,则可以结合中心极限的思想,做一个近似,姑且认为枢轴变量满足。这叫做大样本近似。

置信界(单侧估计)

前面的枢轴变量法找的是区间的两个端点,有时候不需要两个端点,而只需要估计参数是不是大于(小于)某个值。

若对参数\(\theta\)的一切取值,有\[P_\theta(\Theta(X_1,\cdots,X_n)\geqslant\theta)=1-\alpha\]成立,则称\(\Theta\)为一个置信系数为\(1-\alpha\)的置信上界。若将\(\geqslant\)换为\(\leqslant\)则称\(\Theta\)为一个置信系数为\(1-\alpha\)的置信下界。

解决问题的方法和两个端点的枢轴变量法一样,只不过不等式都变成了单边的了而已。

贝叶斯法

贝叶斯法处理统计问题的思路都是相似的,这里还是必须先假定一个先验密度函数\(h(\theta)\),设样本\(X_1,\cdots,X_n\),计算出后验密度函数\(h(\theta|X_1,\cdots,X_n)\),找出两个值\(\theta_1,\theta_2\)使得\[\int_{\theta_1}^{\theta_2}h(\theta|X_1,\cdots,X_n){\rm d}\theta=1-\alpha\]成立,则区间\([\theta_1,\theta_2]\)可以作为一个区间估计,后验信度\(1-\alpha\).
一般来说会有很多\(\theta_1,\theta_2\)满足条件,选择的原则通常是使得\(|\theta_1-\theta_2|\)最小。

贝叶斯法和枢轴变量法的区别

枢轴变量那一套方法是奈曼理论(J.Neyman),而贝叶斯(Bayes)理论与其观念上有根本区别。奈曼理论中,置信系数为\(0.95\)的确切意思是:对于给定的参数\(\theta\),抽取样本,根据样本计算区间,则这样的行为每进行\(100\)次,平均有且仅有\(95\)次计算出来的区间包含真实的参数\(\theta\);而贝叶斯法的后验信度为\(0.95\)的意思是:计算出来的区间包含真实参数的相信程度为\(0.95\).

转载于:https://www.cnblogs.com/immcrr/p/10348393.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值