概率统计知识点

elvisleon

已于 2024-08-03 20:29:47 修改

阅读量649

点赞数 10

文章标签：概率论机器学习人工智能

于 2024-07-29 22:29:57 首次发布

本文链接：https://blog.csdn.net/elvisleon/article/details/140772784

版权

随机试验

基本概念：样本空间，样本点，事件
事件运算：交，差，并，补，德摩根定律
频率/概率： $\frac{A_n}{n}$
- 概率类型：古典概型(等概率，离散)，几何概型(连续，面积)
- 联合概率
- 边缘概率
- 条件概率
  - 乘法公式： $P (A B) = P (B ∣ A) P (A)$
  - 全概率公式： $P(B)=P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)$
  - 贝叶斯公式： $P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B)}$
- 事件相互独立/不相容

随机变量

离散型随机变量
- 0-1分布(伯努利)
  - 分布律： $p^k(1-p)^{1-k}$
  - 数学期望：p
  - 方差：p(1-p)
- 二项分布(n重伯努利)
  - 分布律： $p^k(1-p)^{n-k}$
  - 数学期望：p
  - 方差：np(1-p)
- 泊松分布
  - 分布律： $\frac{\lambda^k}{k!}e^{-\lambda}$
  - 数学期望： $\lambda$ ( $\lambda \approx np$ )
  - 方差： $\lambda$
- 几何分布
  - 分布律： $p(1-p)^{k-1}$
  - 说明：第k次发生事件的概率
- 超几何分布
  - 分布律： $\frac{\binom{M}{m}\binom{N-M}{n-m}}{\binom{N}{n}}$
  - 说明：不放回抽样
连续型随机变量
- 均匀分布
  - 概率密度： $\frac{1}{b-a}$
  - 分布函数： $\frac{x-a}{b-a}$
  - 数学期望： $\frac{a+b}{2}$
  - 方差： $\frac{(b-a)^2}{12}$
- 指数分布
  - 概率密度： $\lambda e^{-\lambda x}$
  - 分布函数： $1-e^{-\lambda x}$
  - 数学期望： $\frac{1}{\lambda}$
  - 方差： $\frac{1}{\lambda^2}$
- 正态分布 $N(\mu,\sigma^2)$
  - 概率密度： $\frac{1}{\sigma\sqrt{2\pi}}e^{\frac{(x-\mu)^2}{2\sigma^2}}$
  - 分布函数： $\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{(x-\mu)^2}{2\sigma^2}}dx$
  - 数学期望： $\mu$
  - 方差： $\sigma^2$

随机变量的函数

设： $Y = g (x)$ ，已知随机变量X得分布，则：随机变量Y的分布

离散型随机变量
- 通过X的分布律，和已知的y=g(x)的函数关系计算Y的分布律，从而得到Y的分布律。
- 数学期望： $\sum g(x_i)p_i$
连续型随机变量
- 随机变量Y的密度函数： $f_Y(y)=f_X(g^{-1}(y))|[g^{-1}(y)]^{'}|$
- 数学期望： $\int g(x)f(x)dx$

多维随机变量

联合分布
- $f(x,y)=f_X(x)f_Y(y)$ (X,Y相互独立)
边缘分布
条件分布
数学期望性质
- $E (C) = C$
- $E (X + Y) = E (X) + E (Y)$
- $E (X Y) = E (X) E (Y)$ (X,Y相互独立)
- $E (CX) = CE (X)$
方差性质
- $D (C) = 0$
- $D(CX)=C^2D(X)$
- $D (X + Y) = D (X) + D (Y) + 2 C o v (X, Y)$ , 若X,Y相互独立，则有： $D (X + Y) = D (X) + D (Y)$ . 注： $Cov(X,Y)=E[(X-\overline{X})(Y-\overline{Y})]$
协方差与相关系数
- 协方差：Cov(X,Y)
- 相关系数： $\rho=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
- 性质：
  - Cov(X,X) = D(X)
  - Cov(X,Y) = Cov(Y,X)
  - Cov(aX, bY) = abCov(X,Y)
  - Cov(X+Y, Z) = Cov(X,Z) + Cov(Y,Z)
  - $\ge Cov^2(X,Y)$
两个随机变量函数的分布
- X+Y
  - 离散型：类似一维情况，写出Z=X+Y的分布律。
    - 注：对于泊松,二项分布，满足加法叠加性质。
  - 连续型：卷积公式
    - $f_Z(z)=\int f(z-y,y)dy$
    - 若X,Y相互独立， $f_Z(z)=\int f_X(z-y)f_Y(y)dy$
    - 注: 对于正态分布，满足加法叠加性质
- Max(X,Y) / Min(X,Y)
  - $Max(X,Y)=F_X(x)F_Y(y)$
  - $Min(X,Y)=1-(1-F_X(x)()1-F_Y(y))$

大数定理

切比雪夫不等式
- $P\{X \ge \epsilon\}\le\frac{E(X)}{\epsilon}$
- $P\{|X-\mu|\le\epsilon\}\ge1-\frac{\sigma^2}{\epsilon^2}$
大数定理
- $\lim_{n->+\infty}P\{|X-E(X)|\lt\epsilon\}=1即：X ->^PE(X)$
- $\lim_{n->+\infty}P\{|E(X)-\mu|\lt\epsilon\}=1即：E(X)->^P\mu$
- 伯努利大数定理: $\lim_{n->+\infty}P\{|\frac{A_n}{n}-p|\lt\epsilon\}=1$

中心极限定理

$X_i相互独立情况$
- $\lim_{n->+\infty}P\{\frac{\sum(X_i-\mu_i)}{\sqrt{\sum\sigma^2}}\le x\}\sim\Phi(x)$
独立同分布情况
- $\lim_{n->+\infty}P\{\frac{\sum X_i-n\mu}{\sigma\sqrt{n}}\le x\}\sim\Phi(x)$
独立同分布，且 $X_i$ 为0-1分布
- $\lim_{n->+\infty}P\{\frac{\sum X_i-np}{\sqrt{np(1-p)}}\le x\}\sim\Phi(x)$

抽样分布

统计量
- 样本均值： $\overline{X}=\frac{1}{n}\sum X_i$
- 样本方差： $S^2=\frac{1}{n-1}\sum(X_i-\overline{X})^2$
- k阶原点矩： $A_k=\frac{1}{n}\sum X_i^k$
- k阶中心矩： $B_k=\frac{1}{n}\sum(X_i-\overline{X})^k$
- $E(\overline{X})=\mu;D(\overline{X})=\frac{\sigma^2}{n}$
- 伽马函数： $\gamma(n)=\int_{0}^{+\infty}e^{-x}x^{n-1}dx$
常用分布函数
- 单正态抽样分布
  - 卡方分布： $\varkappa^2(n)$
    - 说明：标准正态分布的平方和
    - 数学期望：n
    - 方差：2n
    - $\frac{(n-1)S^2}{\sigma^2}\sim\varkappa^2(n-1)$
  - T分布：t(n)
    - 说明： $\frac{N(0,1)}{\sqrt{\frac{\varkappa^2(n)}{n}}}\sim t(n)$
    - 数学期望：0
    - 方差： $\frac{n}{n-2}$
    - $\frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
  - F分布：F(m,n)
    - 说明： $\frac{\varkappa^2(m)/m}{\varkappa^2(n)/n}\sim F(m,n)$
    - 数学期望： $\frac{n}{n-2}$
    - 方差： $\frac{2n^2(m+n-2)}{m(n-2)(n-4)}$
    - $\frac{1}{F(m,n)}=F(n,m)$
    - $t(n)]^2=F(1,n)$
- 双正态抽样分布
  - 均值差相关分布
    - 标准正态分布：N(0,1)
      - $\sim\frac{(\overline{X}-\overline{Y})-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}$
    - t分布： $t(n_x+n_y-2);\sigma_x^2=\sigma_y^2=\sigma^2$
      - $t(n_x+n_y-2)\sim \frac{(\overline{X}-\overline{Y})-(\mu_x-\mu_y)}{S_W\sqrt{\frac{1}{n_x}}+\frac{1}{n_y}}$
      - $S_W=\frac{n_x-1}{n_x+n_y-2}S_X+\frac{n_y-1}{n_x+n_y-2}S_Y$
  - 方差比相关分布
    - F分布
      - $\frac{S_x^2/S_y^2}{\sigma_x^2/\sigma_y^2}\sim F(n_x-1,n_y-1)$

参数估计

点估计
- 矩估计法
- 极大似然估计法
- 评价标准
  - 无偏性
  - 有效性
  - 相合性

置信区间

单正态总体分布情况
- 均值估计
  - 方差已知情况
    - $(\overline{X}-u_{\alpha/2}\frac{\sigma}{\sqrt{n}},\overline{X}+u_{\alpha/2}\frac{\sigma}{\sqrt{n}})$
  - 方差未知情况
    - $(\overline{X}-t_{\alpha/2}\frac{S}{\sqrt{n}},\overline{X}+t_{\alpha/2}\frac{S}{\sqrt{n}})$
- 方差估计
  - $(\frac{(n-1)S^2}{\varkappa_{\alpha/2}^2(n-1)},\frac{(n-1)S^2}{\varkappa_{1-\alpha/2}^2(n-1)})$
双正态总体分布情况
- 均值差区间估计
  - 方差已知情况
    - $(\overline{X}-\overline{Y}-u_{\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}},\overline{X}-\overline{Y}+u_{\alpha/2}\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}})$
  - 方差未知情况(方差相等)
    - $(\overline{X}-\overline{Y}-t_{\alpha/2}S_w\sqrt{\frac{1}{n_x}+\frac{1}{n_y}},\overline{X}-\overline{Y}+t_{\alpha/2}S_w\sqrt{\frac{1}{n_x}+\frac{1}{n_y}})$
- 方差比区间估计
  - $(\frac{S_x^2}{S_y^2}\frac{1}{F_{\alpha/2}(n_x-1,n_y-1)},\frac{S_x^2}{S_y^2}\frac{1}{F_{1-\alpha/2}(n_x-1,n_y-1)})$

假设检验

一个正态总体分布情况
- 均值检验
  - 已知方差情况
    - $\frac{\overline{X}-\mu}{\sigma^2/\sqrt{n}}\sim U$ ;(标准正态分布)
  - 未知方差情况
    - $\frac{\overline{X}-\mu}{S^2/\sqrt{n}}\sim t(n-1)$
- 方差检验
  - $\frac{(n-1)S^2}{\sigma^2}\sim\varkappa^2(n-1)$
两个正态总体分布情况
- 均值差检验
  - 已知方差情况
    - $\frac{\overline{X}-\overline{Y}-(\mu_x-\mu_y)}{\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}\sim U$
  - 未知方差情况
    - $\frac{\overline{X}-\overline{Y}-(\mu_x-\mu_y)}{S_w\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\sim t(n_x+n_y-2)$
    - $S_w=\frac{n_x-1}{n_x+n_y-2}S_x+\frac{n_y-1}{n_x+n_y-2}S_y$
- 方差比检验
  - $\frac{S_x^2}{S_y^2}/\frac{\sigma_x^2}{\sigma_y^2}\sim F(n_x-1,n_y-1)$

多因素影响的方差分析

检验环境因素对随机变量的影响程度

单因素方差分析
- $S_T=S_E+S_A$ (总误差平方和=误差平方和+水平效应误差平方和)
- 检验因素是否对随机变量有影响： $\frac{S_A/(s-1)}{S_E/(n-s)}\sim F(s-1,n-s)$
- 参数估计：
  - $\hat{\sigma^2}=\frac{S_E}{n-s}$
  - $\hat{\mu}=\overline{X}$
- 当环境因素判定为对随机变量有影响时(即， $H_0$ 为假时)， $\delta_j=\overline{X}_j-\overline{X}$ 的置信区间： $(\overline{X_i}-\overline{X_j}-t_{\alpha/2}\sqrt{\overline{S_E}(1/n_i+1/n_j)},\overline{X_i}-\overline{X_j}+t_{\alpha/2}\sqrt{\overline{S_E}(1/n_i+1/n_j)})$
多因素方差分析
- $S_T=S_E+S_A+S_B+S_{AXB}$
- 检验因素是否对随机变量有影响：
  - $\frac{S_A/(r-1)}{S_E/rs(t-1)}\sim F_A(r-1, rs(t-1))$
  - $\frac{S_B/(s-1)}{S_E/rs(t-1)}\sim F_B(s-1,rs(t-1))$
  - $\frac{S_{AXB}/(r-1)(s-1)}{S_E/(rs(t-1))}\sim F_{AXB}((r-1)(s-1),rs(t-1))$
- 参数估计
  - $\hat{\sigma^2}=\frac{S_E}{rst-1}$
  - $\hat{\mu}=\overline{X}$
无重复试验多因素方差分析
- $S_T=S_E+S_A+S_B$
- 检验因素是否对随机变量有影响：
  - $\frac{S_A/(r-1)}{S_E/(r-1)(s-1)}\sim F_A(r-1,(r-1)(s-1))$
  - $\frac{S_B/(s-1)}{S_E/(r-1)(s-1)}\sim F_B(s-1,(r-1)(s-1))$
- 参数估计
  - $\hat{\sigma^2}=\frac{S_E}{rs-1}$
  - $\hat{\mu}=\overline{X}$

回归分析

一元线性回归模型

$Y=\beta_0+\beta_1X+\epsilon$ ; $\epsilon \sim N(0,\sigma^2)$
$\sim N(\beta_0+\beta_1X,\sigma^2)$
最小二乘法估计线性函数参数- $\hat{\beta_0},\hat{\beta_1}$ (无偏估计)
- $\begin{cases}\hat{\beta_0}=\overline{Y}-\hat{\beta_1}\overline{X} \\ \hat{\beta_1}=\frac{L_{xy}}{L_{xx}} \end{cases}$
- $L_{xy}=\sum x_iy_i-n\overline{X}\overline{Y}$
- $L_{xx}=\sum x_i^2-n\overline{X}^2$
随机变量间是否存在线性关系的假设显著性检验：
- $S_T=S_回+S_剩$
  - S_回: 线性回归误差平方和。 $\sum(\hat{y_i}-\overline{y})^2$
  - S_剩: 剩余误差平方和。 $\sum(y_i-\hat{y_i})^2$
- 参数估计
  - $\hat{\sigma^2}=\frac{S_剩}{n-2}$
  - $\frac{(n-2)\hat{\sigma^2}}{\sigma^2}\sim\varkappa^2(n-2)$
- F检验法
  - $\frac{S_回}{S_剩/(n-2)}\sim F(1,n-2)$
  - $\frac{S_回}{\sigma^2}\sim\varkappa^2(1)$
  - $\frac{S_剩}{\sigma^2}\sim\varkappa^2(n-2)$
- 预测值的置信水平区间
  - $(\hat{y_i\pm t_{\alpha/2}\hat{\sigma\sqrt{1+\frac{1}{n}+\frac{(x_i-\overline{x})^2}{L_{xx}}}}})$