概率论与数理统计（茆诗松）复习

最新推荐文章于 2021-01-03 16:54:21 发布

py540105162

最新推荐文章于 2021-01-03 16:54:21 发布

阅读量9.7k

点赞数 15

分类专栏：数理统计

本文链接：https://blog.csdn.net/py540105162/article/details/82464110

版权

数理统计专栏收录该内容

1 篇文章

订阅专栏

第一章随机事件及其概率

概率的公理化定义：
1）非负性公理
2）正则性公理
3）可加性公理

重复组合：从n个不同的元素中每次取出一个，放回后再取出下一个，如此连续取r次所得的组合称为重复组合，总数为C_{n+r-1}^{r}
可结合插板法考虑

概率的加法公式

多个事件的独立性不只是两两独立，eg：三个事件相互独立需要满足4个等式。

条件概率同样满足概率的公理化中的三个条件。

乘法公式

全概率公式（经由另一对全空间的分割，通过乘法公式/条件概率推算得出）

由全概率公式可知，抽签不分先后，机会是均等的。

敏感性问题的调查，可以设置两个问题，其中A为感兴趣的B为不感兴趣的。被调查者从一个罐子中随机抽取一只球，抽到白球则回答A，抽到红球则回答B。通过相关概率公式可以计算感兴趣的问题的概率性质。

贝叶斯公式，可由条件概率公式、乘法公式及全概率公式得出。

第二章随机变量及其概率分布

分布函数F(x)=P(X<=x)的性质：
1）0<=F(x)<=1
2）在x趋于负无穷时为0
3）在x趋于正无穷时为1
4）F(x)是非降函数
5）右连续函数

泊松分布
是常用对的离散分布之一，eg: 在一定时间内，电话总站接错电话的次数。其中使用的 $\lambda$ 不同。泊松分布与计数过程相关联，在一定时间或一定区域或一特定单位内的前提下进行。

(泊松定理)
n大p小，且\lambda=np大小合适，二项分布中的概率有一个很好的近似公式，可用泊松分布中相应次数的概率近似二项分布中的概率。(就求极限即可)

人们把一次试验中出现概率很小(如小于0.05)成为稀有事件，此时可使用二项分布的泊松近似。

超几何分布

指数分布 $Exp(\lambda)$
$p(x)=\lambda e^{-\lambda x}, x\geq0$

随机变量函数的分布。 $Y=g(X)$
则 $p_{Y}(y)=p_{X}(h(y))|h'(y)|$
其中 $x=h(y)$ 为 $y=g(x)$ 的反函数.

期望存在的条件是期望对应的积分绝对可积。
期望不一定存在如柯西分布 $p(x)=\frac{1}{\pi(x^2+1)}, -\infty<x<+\infty$ 的期望不存在。

正态分布 $N(\mu, \sigma)$
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty<x<+\infty$ ，其中 $-\infty<\mu<+\infty$ 决定位置, $\sigma>0$ 决定散布大小。
(从正态分布可以导出一些有用的分布，如统计中常用的三大分布 $\chi^2$ ， $t$ ， $F$ )
0.95 (-1.96, 1.96)
0.99 (-2.58, 2.58)
0.99 (-3.29, 3.29)

伽马分布 $Ga(a, \lambda)$
$p(x)=\dfrac{\lambda^a}{\Gamma(a)}x^{a-1}e^{-\lambda x}, x>0$
其中 $a>0$ 称为形状参数， $\lambda>0$ 称为尺度参数。
$a<1, a=1, a>1$ 时密度函数各不相同， $a>1$ 时密度函数具有单峰，另外 $1<a\leq2$ 与 $a>2$ 时又有不同。
用于描述产品寿命
注： $\Gamma(1)=1, \Gamma(n+1)=n!, \Gamma(\frac{1}{2})=\sqrt{\pi}$

1)因此， $a=1$ 的伽马分布 $Ga(1， \lambda)$ 是指数分布。可用来描述第一次冲击到来的时间，电话的通话是时间等。具有无记忆性。

2) $a=\lambda=\dfrac{n}{2}$ , $\lambda=\dfrac{1}{2}$ 的伽马分布 $Ga(\dfrac{n}{2}， \dfrac{1}{2})$ 称为自由度为 $n$ 的 $\chi^2$ 分布

贝塔分布 $Be(a, b)$
$p(x)=\dfrac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^{a-1}(1-x)^{b-1}, 0\leq x\leq1$ ,其中 $a>0, b>0$ 均为形状参数
$\beta(a, b)=\int_{0}^{1}x^{a-1}(1-x)^{b-1}dx, a>0, b>0$
$\beta(a, b)=\dfrac{\Gamma(a)+\Gamma(b)}{\Gamma(a+b)}$
$a=1, b=1时$ $Be(1, 1)$ 即为 $U(0, 1)$
期望与方差
$E(X)$ 是分布位置的特征数。
$X-E(X)$ 偏差
$E(X-E(X))^2$ 表征随机变量取值的波动大小
$Var(X)=E[X-E(X)]^2=E(X^2)-E(X)^2$
$\sigma(X)=\sqrt{Var(X)}$
可利用求导、二项式公式、泰勒展开、分部积分
二项分布 $B(n,p)$
期望 $np$ , 方差 $np(1-p)$
泊松分布 $P(\lambda)$
期望 $\lambda$ , 方差 $\lambda$
几何分布
期望p^{-1}

均与分布 $U(a, b)$
期望 $\frac{a+b}{2}$ , 方差 $\frac{(b-a)^2}{12}$
指数分布 $Exp(\lambda)$
$p(x)=\lambda e^{-\lambda x}, x\geq0$
期望 $\frac{1}{\lambda}$ , 方差 $\frac{1}{\lambda^2}$
正态分布 $N(\mu, \sigma)$
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, -\infty<x<+\infty$ ，其中 $-\infty<\mu<+\infty$ 决定位置, $\sigma>0$ 决定散布大小。
(从正态分布可以导出一些有用的分布，如统计中常用的三大分布 $\chi^2$ ， $t$ ， $F$ )
期望 $\mu$
方差 $\sigma^2$
伽马分布 $Ga(a, \lambda)$
期望 $\dfrac{a}{\lambda}$ , 方差 $\dfrac{a}{\lambda^2}$
$\chi^2$ 分布
期望 $n$ , 方差 $2n$
贝塔分布 $Be(a, b)$
期望 $\dfrac{a}{a+b}$

切比雪夫不等式
$P(|X-E(X)\geq\epsilon|\leq\dfrac{Var(X)}{\epsilon})$

矩
变导系数 $C_{v}=\dfrac{\sqrt{Var(X)}}{EX}$
分位数 $F(x_{\alpha})=\int_{-\infty}^{x_{\alpha}}p(x)dx=P(X\le \alpha)=\alpha$ , $x_{\alpha}$ 称为 $X$ 分布的 $\alpha$ 分位数，或 $\alpha$ 下侧分位数。
众数 $Mod(X)$ , $P(X=x)$ 达到最大的 $x$

第三章多维随机变量

二维正态分布 $N(\mu_1, \mu_2, \sigma^2_1, \sigma^2_1, \rho)$
的边缘分布是一维正态分布 $N(\mu_1, \sigma^2_1)$ , $N(\mu_2, \sigma^2_2)$
由此也可以看出二维联合分布可以唯一决定其每个分量的的边缘分布，但是反过来不成立。

泊松分布，二项分布、正态分布、伽马分布可加性：（独立）
$X\sim P(\lambda_1), Y\sim P(\lambda_1)$ ， $X$ 与 $Y$ 独立，则 $X+Y\sim P(\lambda_1+\lambda_2)$
$X\sim B(n, p), Y\sim B(m, p)$ ， $X$ 与 $Y$ 独立，则 $X+Y\sim B(n+m, p)$
$X\sim N(\mu_1, \sigma^2_1), Y\sim N(\mu_2, \sigma^2_2)$ ， $X$ 与 $Y$ 独立，则 $X+Y\sim N(\mu_1+\mu_2, \sigma^2_1+\sigma^2_1)$
$X\sim \Gamma(a_1, \lambda), Y\sim \Gamma(a_2, \lambda)$ ， $X$ 与 $Y$ 独立，则 $X+Y\sim \Gamma(a_1+a_2, \lambda)$

$E(X+Y)=E(X)+E(Y)$
$X$ 与 $Y$ 独立，则 $E(XY)=E(X)E(Y)$
$X$ 与 $Y$ 独立，则 $Var(X\pm Y)=Var(X)+Var(Y)$

协方差 $Cov(X, Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)$
$X$ 与 $Y$ 独立，则 $Cov(X, Y)=0$ .
$Var(X\pm Y)=Var(X)+Var(Y)\pm2Cov(X, Y)$

（线性）相关系数 $Corr(X, Y)=\dfrac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}}$
$-1\le Corr(X, Y)\le 1$
独立则相关系数为0，反之不然。在二维正态分布场合例外。

条件期望 $E(E(X|Y))=E(X)$

中心极限定理（n个相互独立、同分布的随机变量之和的分布近似于正态分布）
$\{X_n\}$ 是独立同分布的随机变量序列，其中 $E(X_1)=\mu, Var(X_1)=\sigma^2$ ，假如方差有限且不为零0，则前 $n$ 个随机变量之和的标准化变量 $Y_n=\dfrac{X_1+...+X_n-n\mu}{\sqrt{n}\sigma}$ 的分布函数收敛于 $\Phi(y)$ , 即
$\lim\limits_{n\to+\infty}P(Y_n\le y)=\Phi(y)$

因此 $np\geq5, n(1-p)\geq5$ 时可用正态分布近似二项分布。使用正态近似应修正区间为往左右放大 $dfrac{1}{2}$

独立不同分布的随机变量之和也有类似的中心极限定理。

统计量及其分布

从这里开始，我们通过对随机现象的观测或试验来获取数据，通过对数据的分析与推断去寻求隐藏在数据中的统计规律性。

eg：通过样本去推断总体。由于在实际中常常只能得到有限的甚至少量的数据，这部分数据必然带有随机性，我们需要从中尽可能地排出随机性的干扰以做出合理的推断。

常用的抽取样本的方法是“简单随机抽样”，样本具有代表性（同分布），独立性。

经验分布函数，n增大经验分布函数也将在概率移一下越来越靠近总体分布函数。

$X=(X_1, X_2, ... , X_n)$ 是取自某总体的一个容量为 $n$ 的样本，如果
$T=T(X)=T(X_1, X_2, ... , X_n)$ 不含任何未知参数，则称 $T$ 为统计量。统计量的分布称为抽样分布。

样本均值 $\bar{X}=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$
样本方差 $S_{n}^2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$
$n$ 不大时，常用 $S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$

计算偏差平方和 $Q=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2$ 的常用公式:
$Q=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2=\sum\limits_{i=1}^{n}x_i^2-2\sum\limits_{i=1}^{n}x_i\cdot\bar{x}+\sum\limits_{i=1}^{n}\bar{x}^2=\sum\limits_{i=1}^{n}x_i^2-n\bar{x}^2=\sum\limits_{i=1}^{n}x_i^2-\dfrac{1}{n}(\sum\limits_{i=1}^{n}x_i)^2$

$X_1, X_2, ... , X_n$ 是来自总体 $N(\mu, \sigma^2)$ 的一个样本，则
$\dfrac{n-1}{\sigma^2}S^2=\dfrac{n}{\sigma^2}S_{n}^2=\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2\sim \chi^2(n-1)$ 且与 $\bar{X}$ 独立

偏度反映了总体分布密度曲线的对称信息。是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。 $SK>0$ 右偏，正偏，右长尾，也就是说均值右边的数据较多。

峰度（Kurtosis）与偏度类似，反映了总体分布密度曲线的在其峰值附近的陡峭程度的信息。是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较，峰度为0表示该总体数据分布与正态分布的陡缓程度相同；峰度大于0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；峰度小于0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

总体偏度 $SK=\dfrac{\mu_3}{\sigma^3}$ 即为标准化变量的三阶矩。
总体峰度 $\dfrac{\mu_4}{\sigma^4}-3$

其中 $\mu_3, \mu_4$ 皆为中心距。

次序统计量的抽样分布
第 $k$ 个次序统计量 $X_{(k)}$ 的概率密度函数是：
$p_{k}(x)=\dfrac{n!}{(k-1)!(n-k)!}[F(x)]^{k-1}[1-F(x)]^{n-k}p(x)$

样本极差表示样本取值范围的大小也反映了总体取值的分散和集中程度。
$R=X_{(n)}-X_{(1)}$

参数估计

形式有两种：点估计和区间估计

点估计值能给人们一个明确的数量，未知参数是多少，但是却不能给出精度。

点估计的常用方法有矩法估计和极大似然估计。

矩法估计用样本矩去估计总体矩

评价估计的好坏，无偏性（渐进五篇）、有效性（无偏时，方差最小）、均方误差准则（有偏时，均方误差最小）、相和性（p收敛，n越大 $\hat{\theta}$ 应该越来越接近 $\theta$ ）

辛钦大数定律独立同分布的随机变量，具有有限数学希望，则样本均值是数学期望的相和估计。

极大似然估计（MLE，总体分布类型已知时
）
在 $\theta$ 的一切取值之中选出一个使样本观测值出现的概率为最大的 $\theta$ 值（记为）作 $\hat{\theta}$ 为 $\theta$ 的估计，并称 $\hat{\theta}$ 为 $\theta$ 的极大似然估计.
$L(\theta)=\prod\limits_{i=1}{n}p(x_i; \theta)$ ,
则 $L(\hat{\theta})=\max L(\theta)$
可通过求导获得极大似然估计的情况，直接求导（为求导方便，常对似然函数取对数）。不可时，通过定义出发直接求 $L(\theta)$ 的极大值点。

极大似然估计的不变原则， $\hat{\theta}$ 为 $\theta$ 的极大似然估计， $g(\theta)$ 是 $\theta$ 的连续函数，则
$g(\hat{\theta})$ 为 $g(\theta)$ 的极大似然估计.

极大似然估计具有渐进正态性。

区间估计给出一个区间以及相应的精度。
$P(\theta_{L}\le \theta\le\theta_{U})\ge 1-\alpha$ , 则称随机区间 $[\theta_{L}, \theta_{U}]$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间
常用方法枢轴量法（点估计 $\hat{\theta}$ 通过点估计去寻找）
从 $\theta$ 的一个点估计 $\hat{\theta}$ 出发，构造 $\hat{\theta}$ 与 $\theta$ 的一个函数 $G(\hat{\theta},\theta)$ ,是的 $G$ 的分布已知且与 $\theta$ 无关
eg:
正态分布 $N(\mu, \sigma^2)$

1）正态均值
方差 $\sigma^2$ 已知，样本数 $n$ 已知, 将 $\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 作为枢轴量给出均值 $\mu$ 得到置信区间

2）正态均值
方差 $\sigma^2$ 未知，样本数 $n$ 已知,
将 $\dfrac{\bar{X}-\mu}{S/\sqrt{n}}$ ( $t(n-1))作为枢轴量给出均值$ \mu$得到置信区间。

$t$ 分布 $t(n) X\sim N(0, 1)$ , $Y\sim \chi^2(n)$ ，且 $X$ 与 $Y$ 独立，则 $t=\dfrac{X}{\sqrt{Y/n}}$ 的分布称为自由度为 $n$ 的 $t$ 分布

3)正态方差
均值 $\mu$ 未知，样本数 $n$ 已知,
将 $\dfrac{(n-1)S^2}{\sigma^2}$ ( $\chi^2(n-1)$ )作为轴量给出方差 $\sigma^2$ 得到置信区间。

4)两正态均值差
同正态均值的思路

5）两正态方差比

$F$ 分布 $F(n, m)$
$X\sim \chi^2(n)$ , $Y\sim \chi^2(m)$ ,且 $X$ 与 $Y$ 独立，则 $F=\dfrac{X/n}{Y/m}$ 的分布称为自由度是 $n$ 与 $m$ 的 $F$ 分布

假设检验

步骤
1）建立假设，原假设与备择假设
常把没有把握不能轻易肯定的命题作为备择假设，把没有充分理由不能轻易否定的命题作为原假设，只有理由充足时才会拒绝它，否则保留。
2）寻找检验统计量（由于要确认原假设是否为真，那么我们先假定原假设成立，然后用样本去判断真伪，而样本信息较为分散，所以要构造一个统计量帮助判断）
3）显著水平与临界值
显著水平即为原假设为真但被拒绝的概率
两类错误：
第一类错误，原假设为真而被拒绝，拒真概率记为 $\alpha$
第二类错误，原假设为假但保留，取伪概率记为 $\beta$
单双边看备择假设
样本容量固定时，两者一般一个大一个小，不能同时减小，所以抽取样本时，尽量使样本容量大一点，可减小两类错误。
4）作判断，拒绝或保留原假设

关于均值的检验
1）方差已知
$\bar{X}$ 作为检验统计量

2）方差未知
$\dfrac{\bar{X}-\mu_0}{S/\sqrt{n}}$ 作为检验统计量

关于方差的检验
$\dfrac{(n-1)S^2}{\sigma^2_0}$ 作为检验统计量

两正态总体方差
$\dfrac{S_{X}^2}{S_{Y}^2}$ 作为检验统计量

两正态总体均值差
同正态均值的思路

p值

前面所讨论的检验问题是在分布形式已知的前提下对分布的参数进行的，他们都属于参数假设检验问题，当我们对总体分布知之甚少时，就要采用非参数检验。

$\chi^2$ 拟合优度检验
用来检验一批分类数据所来自的总体的分布是否与某种理论分布相一致。

1)总体可分为有限类，但总体分布不含未知参数。（此时 $p_i$ 已知）
总体 $X$ 可分为 $r$ 类，记为 $A_1, ...A_r$ 。
$H_0: p(A_i)=p_i, i=1, ...r$
$n$ 充分大且 $H_0$ 为真时, $\chi^2=\sum\limits_{i=1}^{r}\dfrac{(n_i-np_i)^2}{np_i}$ 近似服从自由度为 $r-1$ 的 $\chi^2$ 分布

2)总体可分为有限类，但总体分布含 $k$ 个未知参数。（此时 $p_i$ 未知，可用极大似然估计去代替，相应的自由度减 $k$ ）

3)总体为连续分布的情况
$H_0: X$ 服从分布 $F(x)$
把检验问题转化为分类数据的检验问题

列联表的独立性检验
$H_0: p_{i, j}=p_{i, .}p_{., j}\forall i, j$
$\chi^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(n_{ij}-np_{i,j})^2}{np_{i,j}}=\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(n_{ij}-np_{i, .}p_{., j})^2}{np_{i, .}p_{., j}}$
$p_{i, .}p_{., j}$ 使用极大似然估计去替换
$\hat{p}_{i, .}=\dfrac{n_{i, .}}{n}$
$\hat{p}_{. j}=\dfrac{n_{., j}}{n}$
即采用检验统计量
$\chi^2=\sum_{i=1}^{r}\sum_{j=1}^{c}\dfrac{(n_{ij}-n\hat{p}_{i, .}\hat{p}_{. j})^2}{n\hat{p}_{i, .}\hat{p}_{. j}}$ 自由度为 $n-(r+c-2)=(r-1)(c-1)$

方差分析

单因子方差分析
因子–变量，水平–变量的不同过取值

设因子 $A$ 有 $r$ 个水平 $A_1,.., A_r$ ，每一水平下都可以看成一个总体，现有 $r$ 个水平，故有 $r$ 个总体，假定
1）每一总体服从正态分布
2）每一总体方差相同
3）从每一总体中抽出的样本独立
比较哥哥总体的均值是否一致
$H_0: \mu_1=...=\mu_r$
$H_0$ 为真时，称该因子的各水平间无显著差异，简称该因子不显著。