【概率论】期望、方差、协方差、相关系数、相关与独立、样本估计量、点估计、区间估计

Gene_INNOCENT

已于 2024-06-05 13:59:16 修改

阅读量2.4k

点赞数 1

分类专栏：机器学习大学课程笔记文章标签：协方差相关系数期望方差区间估计

于 2021-01-06 09:54:14 首次发布

本文链接：https://blog.csdn.net/qq_41552508/article/details/112257341

版权

大学课程笔记同时被 2 个专栏收录

83 篇文章 107 订阅

订阅专栏

机器学习

68 篇文章 37 订阅

订阅专栏

期望

$E [a] = a$
$E [a X] = a E [X]$
$E [X + Y] = E [X] + E [Y]$
$E [X, Y] = E [X] E [Y]$ 当且仅当 $\operatorname{Cov}[X,Y]=0$
$E [Y] = E [E (Y ∣ X)]$ （全期望公式）
$E^2[XY]\leq E[X^2]E[Y^2]$ （柯西-施瓦茨不等式）

方差

$\operatorname{Var}[a]=D[a]=0$
$D[aX]=a^2D[X]$
$D[X]=E[(X-E[X])^2]=E[X^2]-E^2[X]$
$D[aX+bY]=a^2D[X]+b^2D[Y]+2ab\operatorname{Cov}[X,Y]$
$\operatorname{Var}\left(\sum_{i=1}^{N} X_{i}\right)=\sum_{i, j=1}^{N} \operatorname{Cov}\left(X_{i}, X_{j}\right)=\sum_{i=1}^{N} \operatorname{Var}\left(X_{i}\right)+\sum_{i \neq j} \operatorname{Cov}\left(X_{i}, X_{j}\right)$
$\operatorname{Var}\left(\sum_{i=1}^{N} a_{i} X_{i}\right)=\sum_{i, j=1}^{N} a_{i} a_{j} \operatorname{Cov}\left(X_{i}, X_{j}\right)$ ， $a_i$ 为常数， $X_i$ 为随机变量

协方差

$\operatorname{Cov}[X,Y]=E[\{X-E[X]\}\{Y-E[Y]\}]=E[XY]-E[X]E[Y]$
$|\operatorname{Cov}[X,Y]|\leq \sqrt{\operatorname{Var}[X]\operatorname{Var}[Y]}$
若 $\operatorname{Cov}[X,Y]=0$ ，则 $E [X Y] = E [X] E [Y]$
$\operatorname{Cov}[X,Y+Z]=\operatorname{Cov}[X,Y]+\operatorname{Cov}[X,Z]$
$\operatorname{Cov}[aX,Y]=\operatorname{Cov}[X,aY]=a\operatorname{Cov}[X,Y]$

独立与不相关

不相关指 $\operatorname{Cov}[X,Y]=0$ ，即 $X$ 与 $Y$ 非线性关系， $E [X Y] = E [X] E [Y]$
独立指 $P [X Y] = P [X] P [Y]$

在这里插入图片描述

协方差矩阵

$X=[X_1,X_2,...,X_n]^T$
$\mu=[\mu_1,\mu_2,...,\mu_n]^T$
$\sum=E[(X-\mu)(X-\mu)^T]$
对称矩阵
半正定矩阵，且特征值 $\geq 0$ ，行列式 $\geq 0$
- $\forall y\in \mathbb{R^n},y^T\sum y=E[y^T(X-\mu)(X-\mu)^Ty]$
- $y^T\sum y=E[((X-\mu)^Ty)^T((X-\mu)^Ty)]=E[||(X-\mu)^Ty||^2_2]\geq 0$
$|\sum_{ij}|\leq \sum_{ii}\sum_{jj}$

样本估计量

假设样本真实均值与方差为 $\mu,\sigma$

样本均值

$\mu=E[\bar{X}]=E[\frac{1}{n}\sum_{i=1}^nX_i]=\frac{1}{n}\sum_{i=1}^nE[X_i]=\frac{1}{n}\sum_{i=1}^n\mu=\mu$

样本方差

公式：
$\sigma^2=E[(X-\mu)^2]=E[S^2]=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2]$

推导：
$\begin{aligned} E[S^2]&=E[\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2]\\ &=E[\frac{1}{n}\sum_{i=1}^n(X_i^2+\mu^2-2\mu X_i)] \\ &=E[E[X^2]+E^2[X]-2\mu E[X]]\\ &=E[X^2]-E^2[X]\\ &=\sigma^2 \end{aligned}$

$\begin{aligned} E[S^2]&=E[\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n((X_i-\mu)-(\bar{X}-\mu))^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2+n(\bar{X}-\mu)^2-2(\bar{X}-\mu)\sum_{i=1}^n(X_i-\mu)]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i-\mu)^2-n(\bar{X}-\mu)^2]\\ &=\frac{1}{n-1}(E[\sum_{i=1}^n(X_i-\mu)^2]-nE[(\bar{X}-\mu)^2])\\ &=\frac{1}{n-1}(n\sigma^2-nD[\bar{X}])\\ &=\frac{1}{n-1}(n\sigma^2-n\frac{1}{n^2}\sum_{i=1}^nD[X_i])\\ &=\frac{1}{n-1}(n\sigma^2-\sigma^2)\\ &=\sigma^2 \end{aligned}$

交叉验证 t 检验

原理

在这里插入图片描述

表格

在这里插入图片描述

点估计与区间估计

假设人类身高分布为正态分布，即 $X～N(\mu,\sigma^2)$ 。其中 $\mu$ 和 $\sigma$ 均为定值，但我们只知道 $\sigma$ 的取值，现在想要使用抽样的方法来估计 $\mu$ 的值。

假设我们抽样的数据为 $x_1,...,x_N)$ ，则我们可以用这组数据的均值来估计 $\mu$ ，即令估计值 $\hat{\mu}=\bar{X}=\frac{1}{N}\sum_{i=1}^N x_i$ ，这种方法即为点估计。

点估计可以直接估计出具体数值，但对于估计误差没有度量，因此引入了区间估计的方法。

由于 $X～N(\mu,\sigma^2)$ 是确定的，因此 $\bar{X}～N(\mu,\displaystyle\frac{\sigma^2}{n})$ 也是确定的，所以我们可以得到：
$P(\displaystyle\frac{-1.96\sigma}{\sqrt{n}}\leq \bar{X}-\mu\leq\displaystyle\frac{1.96\sigma}{\sqrt{n}})$
由此我们可以使用区间估计，即认为 $\mu$ 在区间 $[\bar{X}-\displaystyle\frac{-1.96\sigma}{\sqrt{n}},\bar{X}+\displaystyle\frac{-1.96\sigma}{\sqrt{n}}]$ 中，并且该区间的置信度为 95%。