统计-参数估计-假设检验-总结一

cshgiser

已于 2023-01-20 06:08:17 修改

阅读量391

点赞数 1

分类专栏：数学与算法文章标签：概率论

于 2020-03-08 20:16:01 首次发布

本文链接：https://blog.csdn.net/qq_40821274/article/details/104636941

版权

数学与算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

统计-参数估计-假设检验-总结一

基本概念

总体： 总体就是一个概率分布。总体分布为指数分布就是指数分布总体，总体分布为正态分布时称为正态分布总统。

总体与分布簇： 仅含一个参数的分布簇称为单参数分布簇，仅含两个参数的分布称为双参数分布簇，含多个参数则为多参数分布簇。有些情况下，只假定总体有一定的概率分布而又不能明确其数学形式，总体分布不能通过若干参数表达出来，这种情况称为非参数总体。

有限总体与无限总体： 指数分布总体与正态分布总体称为无限总体。实际上，现实世界中，多数情况下，总体总是由有限个个体构成，从而其总体总是有限的，其分布也是离散分布，引入无限总体的概念，在概率论上相当于用一个连续分布的总体去逼近这个离散分布。

样本： 按一定的规定从总体中抽出的一部分个体（每个个体同等机会被抽出，以及在这个基础上设立的某种附加条件）

统计量： 完全由样本所决定的量。也就是说统计量只依赖于样本，而不依赖于任何其他未知的量。不依赖于总体分布中所包含的未知参数。

假设 $x_1$ , $x_2$ , $...$ , $x_n$ 为正态总体 $N(\mu, \sigma^2)$ 中抽出的样本，其中 $\sigma^2$ 已知，而 $\mu$ 未知，则： $\bar{x}=\frac{1}{n}(x_1+x_2+...+x_n)$ ， $x_1+x_2+{x_n}^2/\sigma^2$ 是统计量，这里 $\sigma$ 为已知，两个量均只由样本所决定。而 $x_1-\mu$ 以及 $\bar{x}+\lambda$ 均不是统计量。

统计量有什么作用
统计量由某种需要而设定。

常见的统计量
样本均值： $\bar{x}=\frac{1}{n}(x_1+x_2+...+x_n)=\frac{1}{n}\sum\limits_1^nx_i$

样本方差： $s^2=\frac{1}{n-1}\sum\limits_1^n(x_i-\bar{x})^2$

样本k阶原点矩： $a_k=\frac{1}{n}\sum\limits_1^nx_i^k$ （一介原点矩即分布的期望）

样本k阶中心距： $m_k=\frac{1}{n}\sum\limits_1^n(x_i-\bar{x})^k$ （二阶中心矩即为分布的方差）

次序统计量： $x_{(1)}=min(x_1,x_2,...,x_n)$ ；… ； $x_{(n)}=max(x_1,x_2,...,x_n)$

参数估计—点估计

设统计总体 $x~f(x;\theta_1,\theta_2,...,\theta_n)$ ，此 $f(x;\theta_1,\theta_2,...,\theta_n)$ 可能是其分布密度函数，或分布函数，这里 $f(x;\theta_1,\theta_2,...,\theta_n)$ 设定为总体分布。以正态分布 $N(\mu, \sigma^2)$ 为例，其中 $\theta_1=\mu$ ， $\theta_2=\sigma^2$ 为其两个参数，该式可以表示为：
$f(x;\theta_1,\theta_2)=\frac{1}{\sqrt{2\pi \theta_2}}e^{-\frac{(x-\theta_1)^2}{2\theta_2}}$

点估计 ：设 $x_1$ , $x_2$ , $...$ , $x_n$ 为从统计总体这种抽出的样本（独立随机样本，简单随机样本），要根据样本对总体分布中参数 $\theta_1,\theta_2,...,\theta_n$ 未知值进行估计，可能是 $\theta_1,\theta_2,...,\theta_n$ 的某一部分，或者他们的某个已知函数 $g(\theta_1,\theta_2,...,\theta_n)$ ，例如要估计 $\theta_1$ 选出合适的统计量： $\tilde{\theta_1}(x_1,x_2,...,x_n)$ ，每确定一组观察值 $x_1$ , $x_2$ , $...$ , $x_n$ ，代入： $\tilde{\theta_1}(x_1,x_2,...,x_n)$ 之后就得到一个 $\theta_1$ 的估计值。为此目的而构造的统计量： $\tilde{\theta_1}(x_1,x_2,...,x_n)$ 就叫做 $\theta_1$ 的估计量。

由于未知参数 $\theta_1$ 是数轴上的一点，用 $\tilde{\theta_1}$ 去估计 $\theta_1$ ，就相当于由一点去估计另一点，这样的估计叫做点估计。其核心是估计量的选择。

1 | 矩估计法

1.1 方法

即用矩去估计参数，因为假设参数已知时，可以得到相应的矩，这个由参数得到的矩是理论矩，同时假设样本符合相应分布，则由样本可以获得相应的矩，由样本获得的矩是估计矩。二者划等号，就可以用估计矩（已知样本）去估计参数（未知参数）
已知总体x服从 $f(x;\theta_1,\theta_2,...,\theta_n)$ ，及样本 $x_1$ , $x_2$ , $...$ , $x_n$ ，建立矩方程：
$a_i=Ex^i$
其中， $a_i$ 为样本的原点矩 $a_i=\frac{1}{n}({x_1}^i+...+{x_n}^i)$ ，解方程组得到参数 $\theta_1,\theta_2,...,\theta_n$ 的矩估计量：
$\tilde{\theta_1} = \tilde{\theta_1}(x_1,x_2,...,x_n)$
$\tilde{\theta_2} = \tilde{\theta_2}(x_1,x_2,...,x_n)$
$\dots\dots$
$\tilde{\theta_n} = \tilde{\theta_n}(x_1,x_2,...,x_n)$

若要估计 $g(\theta_1,\theta_2,...,\theta_n)$ ，则用 $g(\tilde{\theta_1},\tilde{\theta_2},...,\tilde{\theta_3})$ 进行估计

1.2 矩估计实例：

设正态分布 $N(\mu, \sigma^2)$ ，其中 $\mu$ 和 $\sigma^2$ 均未知，现估计两个参数。则可以建立矩方程：
$\mu=\bar x$ $\sigma^2=m_2$
若要估计标准差 $\sigma$ 由 $\sigma=\sqrt{\sigma^2}=g(\sigma^2)$ 进行估计
设总体分布为参数 $\lambda$ 的指数分布， $x_1$ , $x_2$ , $...$ , $x_n$ 为样本，要估计 $1/\lambda$ 。
因为 $1/\lambda$ 为一介原点矩（因为指数分布的一介原点矩，即期望为 $1/\lambda$ ），由矩方程： $\bar x=1/\lambda$ 可得 $1/\lambda$ 的矩估计为 $\bar x$ ；另因为总体分布的方差为 $1/\lambda_2$ ，由矩方程 $m_2=1/\lambda_2$ ，也可得到 $1/\lambda$ 的矩估计为 $\sqrt{m_2}$ 。矩估计方法下得出不同的矩估计量 $\bar x$ 和 $\sqrt{m_2}$ ，这里说明同一参数在矩估计法下可能得出不同的统计量
设总体分布为区间 $[\theta_1,\theta_2]$ 上的均匀分布，即x服从 $U[\theta_1,\theta_2]$ ， $x_1$ , $x_2$ , $...$ , $x_n$ 为独立随机样本。因为均匀分布的期望为 $\alpha=(\theta_1+\theta_2)/2$ ，均匀分布的方差为 $\mu_2={(\theta_1+\theta_2)}^2/12$ 。由这两个矩估计方程，联立方程可求解参数 $\theta_1,\theta_2$ 的矩估计量。

2 | 极大似然估计

2.1 方法

设总体分布x服从 $f=(x;\theta_1,\theta_2,...,\theta_k)$ ； $x_1$ , $x_2$ , $...$ , $x_n$ 为来自总体的样本，则样本的分布为：
$f(x_1;\theta_1,\theta_2,...,\theta_k)\cdot f(x_2;\theta_1,\theta_2,...,\theta_k)\cdot...\cdot f(x_n;\theta_1,\theta_2,...,\theta_k)$
用 $L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)$ 表示，L反映了在此参数 $\theta_1,\theta_2,...,\theta_k$ 下的总体中抽出当前样本 $x_1,x_2,...,x_n$ 的概率（由于每个样本的抽取是独立随机的，所以抽到特定总样本的概率就等于每个样本个体抽取的概率的乘积），在总体分布簇中寻找出那么一组参数，使得在该组参数下总体中出现当前样本的概率最大。
在样本 $x_1$ , $x_2$ , $...$ , $x_n$ 下，称 $L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)$ 为似然函数，若 ${\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*$ 满足：
$L(x_1,x_2,...,x_n;{\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*)=max L(x_1,x_2,...,x_n;\theta_1,\theta_2,...,\theta_k)$
那么， ${\theta_1}^*,{\theta_2}^*,...,{\theta_k}^*$ 即为 $\theta_1,\theta_2,...,\theta_k$ 的极大似然估计量。

2.2 极大似然估计例子

设总体分布x服从 $N(\mu, \sigma^2)$ ， $x_1,x_2,...,x_n$ 为其样本，求 $\mu, \sigma^2$ 的极大似然估计因为： $f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ 所以：
$L(x_1,x_2,...,x_n;\mu,\sigma^2)=(\frac{1}{\sqrt{2\pi}})^n(\sigma^2)^{-\frac{n}{2}}e^{-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2}$
求对数（通常求对数之后再求极值简单许多）：
$lnL=-\frac{n}{2}ln2\pi-\frac{n}{2}ln\sigma^2-\frac{1}{2\sigma^2}\sum\limits_1^n(x_i-\mu)^2$

将上式分别对 $\mu,\sigma^2$ 求偏导，另导数为0（求极值；当导数为0时，对应的函数值为极值）
$\sum\limits_1^n(x_i-\mu)^2=0$
$-\frac{n}{2\cdot\sigma^2}+\frac{1}{2\sigma^4}\sum\limits_1^n(x_i-\mu)^2=0$
可以解的： $\mu^*=\bar x$
${\sigma^2}^*=\frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2$

可以看到正态分布下的参数的极大似然估计恰好等于矩估计

3 | 贝叶斯估计

3.1 方法

经典统计推断方法是，在统计模型下，考察如何对来自总体的样本进行分析，从而对未知参数做出推断。贝叶斯方法在于强化参数 $\theta$ 的实验前认知，并强调这种对 $\theta$ 的认知以概率分布形成呈现，即 $\theta$ 服从某一概率分布 $h(\theta)$ ，而样本是来自于随机变量 $\theta^*$ 在已经取值为 $\theta$ 后（注意此时参数 $\theta$ 为已知了，形成了当前的试验环境）， $\vec{x}$ 关于 $\theta$ 值之条件分布： $\vec{x}|\theta$
在条件总体分布 $f(x,\theta)$ 的模型之下
$(x_1,x_2,...,x_n)|\theta=f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)$
所以在 $\theta$ 满足一定分布条件下：
$(x_1,x_2,...,x_n,\theta)|\theta=h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)$
所以在已知样本的观察值为 $x_1$ , $x_2$ , $...$ , $x_n$ 时，记 $\theta|_{x_1,x_2,...,x_n}$ 的条件密度函数为 $h(\theta|\vec{x})$ ，有：
$h(\theta|\vec{x})=\frac{h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)}{\int_\theta h(\theta)\cdot f(x_1,\theta)\cdot f(x_2,\theta)\cdot ... \cdot f(x_n,\theta)d\theta}$

3.2 Bayes估计例子

设样本 $x_1$ , $x_2$ , $...$ , $x_n$ 为来自总体 $N(\theta,1)$ ，这里估计参数 $\theta$ ，又已知 $\theta$ 的先验分布为 $N(\mu, \sigma^2)$ ，利用贝叶斯估计求解：已知 $\theta$ 分布，即：
$h(\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(\theta-\mu)^2}{2\sigma^2}}$
在已知 $\theta$ 条件下，x的分布为：
$f(x,\theta)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}(x-\theta)^2}$
由于 $\theta$ 是满足特定分布，（ $\theta$ 在特定的值下乘以对应概率）：

$f(x_1,x_2,...,x_n,\theta)=\frac{1}{(\sqrt{2\pi})^{n+1}\sigma}exp\{-\frac{(\theta-\mu)^2}{2\sigma^2}-\frac{1}{2}\sum_1^n(x_i-\theta)^2\}$

所以(分子是某一特定 $\theta$ 下的概率分布，分母是对分子在全体 $\theta$ 空间内做了积分)：
$h(\theta|\vec{x})=\frac{f(\vec{x},\theta)}{f(\vec{x})}$
$=exp\{-\frac{1+n\sigma^2}{2\sigma^2}[\theta-\frac{\mu+n\sigma^2\bar{x}}{1+n\sigma^2}]^2\}/I$

可知，后验分布服从 $N(t,\eta^2)$ ，其中， $t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n)$ ； $\eta^2=1/(1/\sigma^2+n)$

即： $\theta$ 的分布为： $N((n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n),1/(1/\sigma^2+n))$
若以 $\theta$ 的期望作为对参数 $\theta$ 的估计，这里用 $\theta^*$ 表示：
$\theta^*=t=(n\bar{x}+\mu/\sigma^2)/(1/\sigma^2+n)=\frac{n\bar{x}}{(1/\sigma^2+n)}+\frac{\mu/\sigma^2}{(1/\sigma^2+n)}$
可见 $\theta^*$ 是 $\bar{x}$ 与 $\mu$ 的加权平均，当样本量 $n$ 很大时，样本的权重增大，而样本量很小时，先验知识的权重增大。可见贝叶斯的优越性。但需要参数的先验概率分布，而确定先验概率分布是一件主观的事

4 | 点估计优良性准则

从矩估计例子2中可以得知，不同方法下可能得到同参数的不同估计量。所以这里要对点估计量的优良性加以讨论。即确定同一参数 $\theta$ 不同的估计量，如 $\tilde\theta_1$ ， $\tilde\theta_2$ 哪个更优？

4.1 估计量的无偏性

什么是无偏？
将估计量视为随机变量，去估计g总会有偏差，无偏性表示，把这些偏差在概率上平均起来，其值为0。统计分布总体中含有未知参数 $\theta_1,\theta_2,...,\theta_ k$ ； $x_1,x_2,...,x_n$ 为从该总体中抽出的样本，要估计 $g(\theta_1,\theta_2,...,\theta_k)$ ，设 $\tilde g(x_1,x_2,...,x_n)$ 是一估计量，若对任意的 $\theta_1,\theta_2,...,\theta_k$ 都有 估计值的期望等于真实值：
$E[\tilde g(x_1,x_2,...,x_n)]=g(\theta_1,\theta_2,...,\theta_k)$
则： $\tilde g$ 是 $g(\theta_1,\theta_2,...,\theta_k)$ 的一个无偏估计量。其中 $E$ 是指求数学期望时，各样本对参数进行的估计是在分布中参数为 $\theta_1,\theta_2,...,\theta_k$ 时去做的。 $\theta_1,\theta_2,...,\theta_ k$ 是流动可变的（未知参数），而求期望时是在某一特定 $\theta_1,\theta_2,...,\theta_k$ 下去计算的。这个式子表达的意思就是在特定参数下，由样本进行的估计量的期望，就等于特定参数带入方程 $g$ 计算的值。
以正态分布 $N(\theta,-)$ 为例，样本 $x_1,x_2,...,x_n$ 为来自总体的样本，要计算 $g(x_1,x_2,...,x_n)=x_1+x_2$ ；当 $\theta=1$ 时，期望值为2； $\theta=2.5$ 时，期望值为5.
无偏性证明举例
设总体分布X的方差为 $\sigma^2$ ， $x_1,x_2,...,x_n$ 为样本， $s^2$ 为样本方差，则 $s^2$ 是 $\sigma^2$ 的无偏估计。
证明：设 $EX = a$ ，则 $Ex_i=a$ ；又：
$\sum\limits_1^n(x_i-\bar x)^2=\sum\limits_1^n[x_i-a-(\bar x-a)]^2=\sum\limits_1^n(x_i-a)^2-n(\bar x-a)^2$
又：
$n(\bar x-a)^2=n(\frac{1}{n}\sum\limits_1^n(x_i-a))^2=\frac{1}{n}[\sum\limits_1^n(x_i-a)^2+\sum\limits_{i!=j}(x_i-a)(x_j-a)]$
由 $x_1,x_2,...,x_n$ 独立可知， $x_1-a,x_2-a,...,x_n-a$ 也相互独立，所以：
$E(n(\bar x-a)^2)=\frac{1}{n}[n\cdot\sigma^2+E\sum\limits_{i!=j}(x_i-a)(x_j-a)]=\sigma^2$
所以：
$E[\sum\limits_1^n(x_i-\bar x)^2]=n\sigma^2-\sigma^2=(n-1)\sigma^2$
所以：
$Es^2=\sigma^2$

这里对 $\sum\limits_1^n(x_i-a)^2$ 求期望是在方差 $\sigma$ 下，也即样本是在方差 $\sigma$ 下的样本，对其求期望就等于 $n\sigma^2$ ，当a为已知时则需要用 $\frac{1}{n}\sum\limits_1^n(x_i-a)^2$ 作为无偏估计量，而不是用 $\frac{1}{n}\sum\limits_1^n(x_i-\bar x)^2$

虽然 $Es^2=\sigma^2$ ，即 $s^2$ 是 $\sigma^2$ 的无偏估计，但 $s$ 并不是 $\sigma$ 的无偏估计。因为 $Ds=Es^2-(Es)^2>=0$ ，又 $Es^2=\sigma^2$ ，所以： $Es<=\sigma$ 即 $s$ 去估计 $\sigma$ 总是系统性偏低。通常引入一个因子 $c_n$ 使得 $c_ns$ 是 $\sigma$ 的无偏估计。

4.2 数量指标—均方误差

什么是均方误差
设样本 $x_1,x_2,...,x_n$ 为来自统计总体的样本服从 $f(x,\theta)$ ，要估计 $\theta$ 采用统计量 $\tilde\theta(x_1,x_2,...,x_n)$ 作为 $\theta$ 的估计量，定义 $M_{\tilde\theta}(\theta)$ ：
$M_{\tilde\theta}(\theta)=E_\theta[\tilde\theta(x_1,x_2,...,x_n)-\theta]^2$
称 $M_{\tilde\theta}(\theta)$ 为 $\tilde\theta$ 的均方误差，此值越小越优。

均方误差让估计更优良
例如 $N(\mu,\sigma^2)$ ； $x_1,x_2,...,x_n$ 为样本， $\tilde\theta_1=\bar x$ 以及 $\tilde\theta_2=x_1$ 均为 $\mu$ 的无偏估计量，但： $M_{\tilde\theta_1}(\mu)=E_\mu(\bar x-\mu)=\sigma^2/n$ ， $M_{\tilde\theta_2}(\mu)=\sigma^2$ ，结合此指标， $\bar x$ 更优

注意：无法找到一个估计量使之优于其他任意估计量，就像不能找到一个最小的正数使之都小于其他正数（无穷小不算数）。但能尽可能寻找使均方误差最小的估计量。（最小方差无偏估计）
$M_{\tilde\theta}(\theta)=E(\tilde\theta-\theta)^2=E(\tilde\theta-E\tilde\theta+E\tilde\theta-\theta)^2=var\tilde\theta+(E\tilde\theta-\theta)^2$
当为无偏时，均方误差就时估计量本身的方差 $M_{\tilde\theta}(\theta)=var\tilde\theta$ ，估计量方差越小，均方误差指标越小，也很好理解，又无偏（无偏不等于没有偏差，而是偏差期望为被估计参数本身，也就是基于参数本身左偏右偏抵消），两侧的偏离量又小，说明估计准确

均匀分布看如何选取最优估计量
设 $x_1,x_2,...,x_n$ 为来自总体X服从 $U[0,\theta]$ ，已知 $\tilde\theta_1=2\bar x$ （通过矩估计得到）；以及 $\tilde\theta_2=\frac{n+1}{n}x_{(n)}$ （由极大似然估计法得到）为 $\theta$ 的两个无偏估计量，现比较方差大小。
先说明 $\tilde\theta_2=\frac{n+1}{n}x_{(n)}$ 如何得到：
由极大似然估计发构造似然方程：
$L(x_1,x_2,...,x_n,\theta)=\frac{1}{\theta^n}$
显然，为找到 $\tilde\theta$ 使得 $L(x_1,x_2,...,x_n,\theta)$ 为最小，只要 $\theta$ 最小，而 $\theta$ 又是大于等于 $x_1,x_2,...,x_n$ 的值，因此，只要 $\tilde\theta=x_{(n)}$ ，即： $\theta$ 的极大似然估计量为 $x_{(n)}$
但此时 $x_{(n)}$ 估计 $\theta$ 偏低，可以求一系数 $c_n$ 使得 $c_nx_{(n)}$ 为 $\theta$ 的无偏估计量。总体分布的密度函数为： $f(x,\theta)=1/\theta$ ；
分布函数为： $F(x,\theta)=1,x>=\theta;x/\theta,0<=x<=\theta;0,x<0$
则 $x_{(n)}$ 的分布函数为： $G(x,\theta)=1,x>=\theta;x^n/\theta^n,0<=x<=\theta;0,x<0$
所以： $E(x_{(n)})=\frac{n}{n+1}\theta$
所以： $E(\frac{n+1}{n}x_{(n)})=\theta$
即 $\frac{n+1}{n}x_{(n)}$ 是 $\theta$ 的无偏估计量。现讨论两个无偏估计量的方差：
对 $\tilde\theta_1=2\bar x$ 易知：
$var(\tilde\theta_1)=var(2\bar x)=\frac{\theta^2}{3n}$
又：
$var(x_{(n)})=E(x_{(n)}^2)-(E(x_{(n)})^2)=\frac{n}{n+2}\theta^2-\frac{n^2}{(n+1)^2}\theta^2=\frac{n}{(n+2)(n+1)^2}\theta^2$
因此 :
$var(\tilde\theta_2)=\frac{(n+1)^2}{n^2}var(x_{(n)})=\frac{1}{n(n+2)}\theta^2<=var\tilde\theta_1$
说明 $\tilde\theta_2$ 对 $\theta$ 的估计优于 $\tilde\theta_1$