概率论与数理统计 | 知识点总结(下)

CHH3213

已于 2022-09-21 19:01:23 修改

阅读量5.9k

点赞数 12

分类专栏：数学文章标签：概率论机器学习 python

于 2022-08-23 16:20:17 首次发布

本文链接：https://blog.csdn.net/weixin_42301220/article/details/126486037

版权

数学专栏收录该内容

16 篇文章 20 订阅

订阅专栏

参考资料

最大似然估计例题
何书元《概率论与数理统计》

6. 描述性统计

统计学的做法分为两种:

描述性统计:
从数据样本中计算一些平均值、标准差、最小值、最大值等概括统计量, 画直方图、散点图等描述图形。
推断性统计:
假定要研究的对象服从某种概率模型, 收集数据后把数据用模型解释, 并做出有概率意义的结论。

6.1 总体与样本

总体

总体参数是描述总体特性的指标, 简称参数。
如果总体中的个体是有限个, 称个体总数 $N$ 为总体容量。
总体平均或总体均值是参数。常用 $\mu$ 表示。如果知道总体的全部个体 (比如, 某小学所有一年级新生的身高) $y_{1}, y_{2}, \ldots, y_{N}$ 则
$\mu=\frac{1}{N} \sum_{i=1}^{N} y_{i}$
总体方差是参数。常记为 $\sigma^{2}$ 。如果知道总体的全部个体 $y_{1}, y_{2}, \ldots, y_{N}$ 则
$\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-\mu\right)^{2}$
$\sigma$ 称为总体标准差。

样本

如果总体只有有限个样本虽然可以测量所有样本计算总体参数, 但可能会消耗过大。
有些总体有无限个个体, 比如, 对某放射性物质测量固定长度时间内放射出的粒子数, 每试验一次就有一个不同结果。
为了得到总体的信息, 可以从总体中抽取一个有代表性的个体的集合, 称为总体的一个样本。也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
试图用样本的情况去判断总体的情况。注意, “有代表性” 是一个不容忽视的要求。
从总体中抽取样本的工作叫做抽样 (sampling)。
设一个样本为 $x_{1}, x_{2}, \ldots, x_{n}$ , 可计算
样本均值
$\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}$
样本方差
$s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} .$
$s=\sqrt{s^{2}}$ 称为样本标准差。

6.2 抽样调查方法

随机抽样

如果总体中的每个个体都有相同的机会被抽中, 就称这样的抽样方法为随机抽样方法。
简单地分, 抽样分为有放回抽取和无放回抽取。
无放回随机抽样指在总体中随机抽出一个个体后, 下次在余下的个体中再进行随机抽样.
有放回随机抽样指抽出一个个体, 记录下抽到的结果后放回, 摇匀后再进行下一次随机抽样.
无放回抽取从实现上和从精度上更好, 总体容量 $N$ 很大时两者差异很小。
提高样本量可以提高估计精度, 但不是总体越大, 考虑的特征越多, 样本量也需要随之增大。
不论是有放回还是无放回，随机抽样是无偏的

分层抽样方法

把总体 $A$ 分成 $L$ 个互不相交子总体:
$A=A_{1}+A_{2}+\cdots+A_{L} .$
称这些子总体为层 (strata), 称 $A_{i}$ 为第 $i$ 层. 然后在每层中独立地进行随机抽样.
用 $N$ 表示总体 $A$ 的个体总数, 用 $N_{i}$ 表示第 $i$ 层的个体总数时, 有
$N=N_{1}+N_{2}+\cdots+N_{L} .$
我们称
$w_{i}=\frac{N_{i}}{N},(i=1,2, \cdots, L)$
为第 $i$ 层的层权 (weight).
用 $\mu$ 表示 $A$ 的总体均值.
对 $\cdots, L$ , 用 $n_{i}$ 表示从第 $i$ 层抽出样本的个数, $\bar{x}_{i}$ 表示从第 $i$ 层抽出样本的样本均值. 称
$\bar{x}_{s t}=w_{1} \bar{x}_{1}+w_{2} \bar{x}_{2}+\cdots+w_{L} \bar{x}_{L}$
是总体均值 $\mu$ 的简单估计.
称
$V\left(\bar{x}_{s t}\right) \equiv w_{1}^{2} \operatorname{Var}\left(\bar{x}_{1}\right)+w_{2}^{2} \operatorname{Var}\left(\bar{x}_{2}\right)+\cdots+w_{L}^{2} \operatorname{Var}\left(\bar{x}_{L}\right)$
是简单估计 $\bar{x}_{s t}$ 的抽样方差.
抽样方差 $V\left(\bar{x}_{s t}\right)$ 是评价简单估计 $\bar{x}_{s t}$ 的估计精度的指标. $V\left(\bar{x}_{s t}\right)$ 越小, 说明 $\bar{x}_{s t}$ 越好.
当各层内总体方差相近时, 各层样本量 $n_{i}$ 应该正比于各层总体容量 $N_{i}$

7. 参数估计

如果 $X_{1}, X_{2}, \cdots, X_{n}$ 独立同分布, 和 $X$ 同分布, 就称 $X$ 是总体, 称 $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 称观测数据的个数 $n$ 为样本量.

7.1 点估计和矩估计

估计量 (统计量)

设 $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, $\theta$ 是总体 $X$ 的末知参数. 如果 $g\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 是已知函数, 就称
$\hat{\theta}=g\left(X_{1}, X_{2}, \cdots, X_{n}\right)$
是 $\theta$ 的估计量, 简称为估计 (estimator). 换句话说, 估计或估计量是从观测数据 $X_{1}, X_{2}, \cdots, X_{n}$ 能够直接计算的量. 计算后得到的值称为估计值. 估计量也称为统计量 (statistic).
设 $\hat{\theta}$ 是总体参数 $\theta$ 的估计, 作为随机变量 $X_{1}, X_{2}, \cdots, X_{n}$ 的函数, 估计量 $\hat{\theta}$ 也是随机变量. 估计量是样本的函数.

无偏估计,相合估计

设 $\hat{\theta}$ 是 $\theta$ 的估计.
- 如果 $\mathrm{E} \hat{\theta}=\theta$ , 称 $\hat{\theta}$ 是 $\theta$ 的无偏估计;
- 如果当样本量 $\rightarrow \infty, \hat{\theta}$ 依概率收敛到 $\theta$ , 就称 $\hat{\theta}$ 是 $\theta$ 的相合估计 (consistent estimator);
- 如果当样本量 $\rightarrow \infty, \hat{\theta}$ 以概率 1 收敛到 $\theta$ , 就称 $\hat{\theta}$ 是 $\theta$ 的强相合估计 (strongly consistent estimator).
由于以概率 1 收玫可以推出依概率收玫, 所以强相合估计一定是相合估计.

均值的估计

设总体均值 $\mu=\mathrm{E} X$ 存在, $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本.
均值 $\mu$ 的估计定义为
$\bar{X}_{n}=\frac{1}{n} \sum_{i=1}^{n} X_{i}$
由于 $\bar{X}_{n}$ 是从样本计算出来的, 所以是样本均值.
样本均值 $\bar{X}_{n}$ 有如下的性质.
(1) $\bar{X}_{n}$ 是 $\mu$ 的无偏估计. 这是因为 $\mathrm{E} \bar{X}_{n}=\mu$ .
(2) $\bar{X}_{n}$ 是 $\mu$ 的强相合估计, 从而是相合估计. 这是因为从强大数律得到
$\lim _{n \rightarrow \infty} \bar{X}_{n}=\mu, \mathrm{wp} 1 .$

方差的估计

总体方差 $\sigma^{2}=\operatorname{Var}(X)$ 的点估计由
$S^{2}=\frac{1}{n-1} \sum_{j=1}^{n}\left(X_{j}-\hat{\mu}\right)^{2}$
定义. 由于 $S^{2}$ 是从样本计算出来的, 所以是样本方差.
定义 $Y_{j}=X_{j}-\mu$ , 有
$\begin{aligned} &\bar{Y}_{n}=\frac{1}{n} \sum_{j=1}^{n} Y_{j}=\hat{\mu}-\mu, \\ &Y_{j}-\bar{Y}_{n}=X_{j}-\hat{\mu}, \\ &\mathrm{E} \bar{Y}_{n}^{2}=\frac{\sigma^{2}}{n} . \end{aligned}$
于是得到
$\begin{aligned} S^{2} &=\frac{1}{n-1} \sum_{j=1}^{n}\left(X_{j}-\bar{X}_{n}\right)^{2}=\frac{1}{n-1} \sum_{j=1}^{n}\left(Y_{j}-\bar{Y}_{n}\right)^{2} \\ &=\frac{1}{n-1} \sum_{j=1}^{n}\left(Y_{j}^{2}-2 Y_{j} \bar{Y}_{n}+\bar{Y}_{n}^{2}\right) \\ &=\frac{1}{n-1}\left[\sum_{j=1}^{n} Y_{j}^{2}-2 n \bar{Y}_{n} \bar{Y}_{n}+n \bar{Y}_{n}^{2}\right] \\ &=\frac{1}{n-1}\left[\sum_{j=1}^{n} Y_{j}^{2}-n \bar{Y}_{n}^{2}\right] \end{aligned}$
从而有
$\mathrm{E} S^{2}=\frac{1}{n-1}\left[\sum_{j=1}^{n} \mathrm{E} Y_{j}^{2}-n \mathrm{E} \bar{Y}_{n}^{2}\right]=\frac{1}{n-1}\left(n \sigma^{2}-\sigma^{2}\right)=\sigma^{2} .$
说明 $S^{2}$ 是 $\sigma^{2}$ 的无偏估计.

样本均值、方差、标准差的理论结果

设 $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, $\mu=\mathrm{E} X$ , $\sigma^{2}=\operatorname{Var}(X)$
- 样本均值 $\bar{X}_{n}$ 是总体均值 $\mu$ 的强相合无偏估计,
- 样本方差 $S^{2}$ 是总体方差 $\sigma^{2}$ 的强相合无偏估计,
- 样本标准差 $S$ 是总体标准差 $\sigma$ 的强相合估计.

点估计

设 $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 则 $X_{1}^{j}, X_{2}^{j}, \cdots, X_{n}^{j}$ 是总体 $X^{j}$ 的简单随机样本, 所以当原点矩 $\nu_{j}=\mathrm{E} X^{j}$ 存在时,
$\tag{1.7} \hat{\nu}_{j}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{j}$
是 $\nu_{j}$ 的点估计.
$\hat{\nu}_{j}$ 具有无偏性和强相合性.
最后指出, 在实际数据的计算中, 也常用 $\bar{x}_{n}, s^{2}$ 和 $s$ 分别表示样本均值, 样本方差和样本标准差:
$\tag{1.8} \bar{x}_{n}=\frac{1}{n} \sum_{j=1}^{n} x_{j}, s^{2}=\frac{1}{n-1} \sum_{j=1}^{n}\left(x_{j}-\bar{x}_{n}\right)^{2}, s=\sqrt{s^{2}} .$

矩估计

设 $X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 已知 $X$ 有分布函数
$\tag{1.9} F\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) .$
其中的 $\theta_{1}, \theta_{2}, \cdots, \theta_{m}$ 是末知参数.
如果能得到表达式
$\tag{1.10} \left\{\begin{array}{l} \theta_{1}=g_{1}\left(\nu_{1}, \nu_{2}, \cdots, \nu_{m}\right) \\ \theta_{2}=g_{2}\left(\nu_{1}, \nu_{2}, \cdots, \nu_{m}\right) \\ \cdots \cdots \cdots \cdots \cdots \cdots, \\ \theta_{m}=g_{m}\left(\nu_{1}, \nu_{2}, \cdots, \nu_{m}\right) \end{array}\right.$
其中
$\nu_{j}=\mathrm{E} X^{j}, j=1,2, \cdots, m,$
就称由
$\tag{1.11} \left\{\begin{array}{l} \hat{\theta}_{1}=g_{1}\left(\hat{\nu}_{1}, \hat{\nu}_{2}, \cdots, \hat{\nu}_{m}\right), \\ \hat{\theta}_{2}=g_{2}\left(\hat{\nu}_{1}, \hat{\nu}_{2}, \cdots, \hat{\nu}_{m}\right), \\ \left.\cdots \cdots \cdots \cdots \cdots, \hat{\nu}_{m}\right) \\ \hat{\theta}_{m}=g_{m}\left(\hat{\nu}_{1}, \hat{\nu}_{2}, \cdots,\right. \end{array}\right.$
定义的 $\hat{\theta}_{1}, \hat{\theta}_{2}, \cdots, \hat{\theta}_{m}$ 分别是 $\theta_{1}, \theta_{2}, \cdots, \theta_{m}$ 的矩估计 (moment estimator). 这里的 $\hat{\nu}_{j}$ 是 $\nu_{j}$ 的点估计, 由 (1.7) 定义.
由于总体分布 (1.9) 中含有末知参数, 所以 $\nu_{j}$ 是参数 $\theta_{1}, \theta_{2}, \cdots, \theta_{m}$ 的函数, 而方程 $(1.10)$ 通常是由下面的估计方程
$\tag{1.12} \left\{\begin{array}{l} \nu_{1}=h_{1}\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right), \\ \nu_{2}=h_{2}\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right), \\ \cdots \cdots \cdots \cdots \cdots, \\ \nu_{m}=h_{m}\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) \end{array}\right.$
得到的. 注意这里的 $\nu_{j}=\mathrm{E} X^{j}$ .

例题：正态分布参数的矩估计

设 $X$ 服从正态分布 $N\left(\mu, \sigma^{2}\right)$ .
由于
$\mu=\mathrm{E} X, \sigma^{2}=\mathrm{E} X^{2}-(\mathrm{E} X)^{2}=\nu_{2}-\nu_{1}^{2},$
所以 $\mu, \sigma^{2}$ 的矩估计分别是
$\begin{aligned} \hat{\mu} &=\bar{X}_{n}, \\ \hat{\sigma}^{2} &=\hat{\nu}_{2}-\left(\hat{\nu}_{1}\right)^{2} \\ &=\frac{1}{n} \sum_{j=1}^{n} X_{j}^{2}-\left(\bar{X}_{n}\right)^{2} \\ &=\frac{1}{n} \sum_{j=1}^{n}\left(X_{j}-\hat{\mu}\right)^{2} . \end{aligned}$

7.2 最大似然估计

最大似然估计定义 (离散情况)

设离散随机变量 $X_{1}, X_{2}, \cdots, X_{n}$ 有联合分布
$p\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)=P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n}\right),$
其中 $\theta$ 是末知参数, 给定观测数据 $x_{1}, x_{2}, \cdots, x_{n}$ 后, 我们称 $\theta$ 的函数
$L(\theta)=p\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)$
为基于 $x_{1}, x_{2}, \cdots, x_{n}$ 的似然函数, 称 $L(\theta)$ 的最大值点 $\hat{\theta}$ 为 $\theta$ 的最大似然估计 (maximum likelihood estimator).
$\theta$ 也可以是向量 $\boldsymbol{\theta}=\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right)$ .

最大似然估计 (连续型)

设随机向量 $\boldsymbol{X}=\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ 有联合密度 $\boldsymbol{\theta})$ , 其中 $\theta$ 是末知参数. 得到 $X$ 的观测值 $x$ 后, 称 $\theta$ 的函数
$L(\boldsymbol{\theta})=f(\boldsymbol{x} ; \boldsymbol{\theta})$
为基于 $\boldsymbol{x}$ 的似然函数. 称似然函数 $L(\boldsymbol{\theta})$ 的最大值点 $\hat{\boldsymbol{\theta}}$ 为参数 $\boldsymbol{\theta}$ 的最大似然估计.
最大似然估计通常被缩写成 MLE(Maximum Likelihood Estimator).
设总体 $X$ 有密度函数 $\boldsymbol{\theta}), X_{1}, X_{2}, \cdots, X_{n}$ 是总体 $X$ 的简单随机样本, 则 $\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ 的联合密度是
$f\left(x_{1}, x_{2}, \cdots, x_{n} ; \boldsymbol{\theta}\right)=\prod_{j=1}^{n} f\left(x_{j} ; \boldsymbol{\theta}\right),$
基于观测值 $\boldsymbol{x}=\left(x_{1}, x_{2}, \cdots, x_{n}\right)$ 的似然函数是
$L(\boldsymbol{\theta})=\prod_{j=1}^{n} f\left(x_{j} ; \boldsymbol{\theta}\right) .$
由于
$l(\boldsymbol{\theta})=\ln L(\boldsymbol{\theta})$
和似然函数有相同的最大值点, 所以称上式为对数似然函数. 实际问题中, 求对数似然函数 $l(\boldsymbol{\theta})$ 的最大值点往往要方便得多.

参数估计还有区间估计、置信区间等相关知识点，由于本人在实际工程上用得不多，所以这一块不总结了。

例题

7. 马尔可夫链

该部分来自知乎：https://zhuanlan.zhihu.com/p/418319247

CHH3213

关注

12
点赞
踩
61

收藏

觉得还不错? 一键收藏
打赏
3
评论
概率论与数理统计 | 知识点总结(下)

统计学的做法分为两种:- 描述性统计: 从数据样本中计算一些平均值、标准差、最小值、最大值等概括统计量, 画直方图、散点图等描述图形。- 推断性统计:假定要研究的对象服从某种概率模型, 收集数据后把数据用模型解释, 并做出有概率意义的结论。
复制链接

扫一扫