从高斯分布，到三大分布（卡方分布、t分布、F分布），到t检验

最新推荐文章于 2025-04-10 13:38:55 发布

Trade Off

最新推荐文章于 2025-04-10 13:38:55 发布

阅读量4.1k

点赞数 1

分类专栏：机器学习 # 概率论与数理统计数学文章标签：机器学习统计学数学

本文链接：https://blog.csdn.net/qq_32071849/article/details/108583093

版权

机器学习同时被 3 个专栏收录

45 篇文章

订阅专栏

数学

28 篇文章

订阅专栏

概率论与数理统计

6 篇文章

订阅专栏

今天又把西瓜书的2.4节比较检验读了一下，读到t检验时发现以前很多理解不到位的地方。这里从最基础的高斯分布开始，把内容串起来，数学推导大多略去，可以找有关教材和百科。

高斯分布

两个高斯分布相加仍然是高斯分布
高斯分布“再生性”：如果一个高斯分布，表示成两个独立随机变量之和，则这两个独立随机变量必服从高斯分布

$\Gamma$ （Gamma）函数

$\Gamma(x)=\int_{0}^{\infty}e^{-t} t^{x-1} dt \quad (x>0)$
性质：

$\Gamma(1)=1$ ; $\Gamma(1/2)=\sqrt \pi$
$\Gamma(x+1)=x\Gamma(x)$ ; 当 $x$ 为整数时， $\Gamma(n)=(n-1)!$

B（Beta）函数

$B(x,y)=\int_0^1 t^{x-1}(1-t)^{y-1} dt \quad (x>0, y>0)$

$\Gamma$ 函数和B函数关系： $B(x,y)=\Gamma(x)\Gamma(y)/\Gamma(x+y)$

三大分布

卡方分布

$k_n(x)=\frac{1}{\Gamma(\frac{n}{2})2^{n/2}}e^{-x/2}x^{(n-2)/2} \quad (x>0)$
其中 $n$ 是自由度，该函数全称自由度为 $n$ 的皮尔逊卡方密度，记为 $\chi_n^2$ 。皮尔逊是英国统计学家，现代统计学的奠基人之一
分布含义：若 $X_1, \cdots, X_n$ 相互独立，服从 $N (0, 1)$ ，则 $X_1^2+\cdots+X_n^2$ 服从自由度为 $n$ 的卡方分布 $\chi_n^2$ ，因为每个变量都能随意变化，这也解释了“自由度”一词的含义。
当 $n = 1$ 时， $X_1^2\sim\chi_1^2$ ，概率密度函数为 $(\sqrt{2\pi y})^{-1}e^{-y/2}$

若 $X_1 \sim\chi_m^2, X_2\sim\chi_n^2$ ，则易得 $X_1+X_2\sim\chi_{m+n}^2$
若 $X_1,\cdots,X_n$ 独立，服从指数分布，概率密度函数为 $\lambda e^{-\lambda y}$ ，则 $2\lambda (X_1 +\cdots +X_n)\sim \chi_{2n}^2$
对于线性回归，如果假定了数据特征 $X$ 固定，不是随机量， $y=X^T\bm\beta+\epsilon$ ，其中 $\epsilon$ 是高斯分布 $\mathcal N(0, \sigma^2)$ 的随机噪声， $\beta$ 是参数
- 可以证明拟合结果 $\hat \bm \beta$ 是高斯分布 $\mathcal N(\bm \beta, (\bm X^T \bm X)^{-1}\sigma^2)$
- 总残差平方和与方差之比满足卡方分布，即 $\sum_{i=1}^N(y_i-\hat y_i)^2/\sigma^2 \sim \chi^2_{N-p-1}$ ，其中 $N$ 是样本数， $p$ 是特征维度。方差有无偏估计 $\hat \sigma^2=\frac{1}{N-p-1}\sum_{i=1}^N(y_i - \hat y_i)^2$ ，该无偏估计和卡方分布也紧密相连！
- 这一块内容参考陈希孺《概率论与数理统计》或"The Elements of Statistical Learning" by Hastie et al.

（学生）t分布

$X_1\sim \chi_n^2$ ， $X_2\sim N(0, 1)$ ，则 $X_2/\sqrt{X_1/n}$ 概率密度为
$t_n(y)=\frac{\Gamma((n+1)/2)}{\sqrt {n\pi}\Gamma(n/2)} \left(1+\frac{y^2}{n} \right)^{-\frac{n+1}{2}}$
称为自由度 $n$ 的t分布，记为 $t_n$ 。该分布关于原点对称，与标准高斯分布 $N (0, 1)$ 类似，当自由度 $n$ 很大时， $t$ 分布接近标准高斯分布。这个分布是英国（又是英国）统计学家W·哥色特在1907年以“student”的笔名首次发表

t分布有其他的引入方式，参考我之前的博客：
- 密度建模中的混合高斯、学生t分布与因子分析模型——比较和组合——CVMLI Prince读书随笔第7章
- PRML读书随笔——第2章 Probability Distribution 两变量条件期望/方差、R-M序列算法、高斯分布参数辨识/后验推断/相关分布、指数族分布、无参数先验、无参数估计、kNN
该分布可用于t检验

F分布

$X_1 \sim \chi_n^2,\ X_2\sim\chi_m^2$ ，则 $m^{-1}X_2/(n^{-1}X_1)$ 概率密度为
$f_{mn}(y)=m^{m/2}n^{n/2}\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}y^{m/2-1} (my+n)^{-(m+n)/2}\quad (y>0)$
称为自由度为 $(m, n)$ 的F分布，记为 $F_{mn}$

该分布可用于F检验，例如线性回归中的回归显著性检验（全体回归系数皆为0的检验）

三大分布的重要性质

设 $X_1, \cdots, X_n$ 独立同分布，服从 $N(\mu, \sigma^2)$ . 记 $\bar {X}=(X_1+\cdots+X_n)/n, S^2=\sum_{i=1}^n (X_i -\bar X)^2/(n-1)$ ，则
$(n-1)S^2/\sigma^2=\sum_{i=1}^n (X_i-\bar X)^2/\sigma^2 \sim \chi_{n-1}^2$
这也说明样本方差和卡方分布有紧密关系
假设同1，则
$\sqrt n(\bar X-\mu) / S \sim t_{n-1}$

这一条可以用于t检验，检验高斯分布均值是否满足我们的预期

设 $X_1, \cdots, X_n, Y_1, \cdots, Y_m$ 独立， $X_i$ 有分布 $N(\mu_1, \sigma_1^2)$ ， $Y_i$ 有分布 $N(\mu_2, \sigma^2)$ ，则
$\left[\sum_{j=1}^m (Y_j - \bar Y)^2/(\sigma_2^2 (m-1))\right]/\left[\sum_{i=1}^n (X_i - \bar X)^2/(\sigma_1^2 (n-1))\right] \sim F_{m-1, n-1}$
若 $\sigma_1^2=\sigma_2^2$ ，则
$\sqrt{\frac{nm(n+m-2)}{(n+m}}\left[(\bar X-\bar Y) - (\mu_1-\mu_2) \right] / \left[ \sum_{i=1}^n (X_i-\bar X)^2 + \sum_{j=1}^m (Y_j - \bar Y)^2 \right]^{1/2} \sim t_{n+m-2}$

机器学习中的模型比较检验

（参考周志华《机器学习》2.4节）
模型的性能可以通过假设检验得方式进行评估。对于一个模型的分类错误率可以通过“二项检验”，而对于多次实验得到的多组测试错误率，则可以使用t检验。

t检验

t检验用于对高斯分布的均值进行检验：设 $X_1,\cdots, X_n$ 是从高斯分布抽样，当方差未知时，关于均值 $\theta$ 与目标值 $\theta_0$ 关系的检验，常见形式如：
$\begin{aligned} 1\degree\quad H_0: \theta\geqslant \theta_0, \quad &H_1:\theta < \theta_0 \\ 2\degree \quad H_0': \theta\leqslant \theta_0, \quad &H_1':\theta > \theta_0 \\ 3\degree \quad H_0'': \theta \geqslant \theta_0, \quad & H_1'':\theta \neq \theta_0 \end{aligned}$
其中 $H_0, H_0', H_0''$ 为原假设， $H_1, H_1', H_1''$ 为对立假设。 t检验的具体细节不讨论，大致思路是利用 $\sqrt n (\bar X-\theta_0)/S$ 服从 $t_{n-1}$ ，其中 $S$ 是样本标准差。
以 $H_0''$ 为例，对于水平 $\alpha$ 的检验为
$\Phi'':\quad$ 当 $|\sqrt n (\bar X - \theta_0) /S|\leqslant t_{n-1}(\alpha/2)$ 时接受 $H_0''$

值得一提的是，t检验中 $\Phi$ 和 $\Phi'$ 不是一致最优检验
利用 $H_0''$ ，可以检验模型的错误率

上述方法用于对单个学习器的泛化性能的假设进行检验，下文的方法则对不同学习器的性能进行比较。

两样本t检验

从两个高斯分布抽出样本 $X_1,\cdots,X_n$ 和 $Y_1, \cdots, Y_m$ ，方差未知（但需满足方差相同），给定 $\theta_0$ ，考虑两个高斯分布的均值差，类似上文t检验，同样能提出三种检验问题。
做法类似，方差未知，先用两组样本综合，将方差估计出来 $S^2=\frac{1}{n+m-2}\left[\sum_{i=1}^n(X_i - \bar X)^2 + \sum_{j=1}^m(Y_j - \bar Y)^2\right]$ ，检验统计量 $\sqrt{\frac{nm}{n+m}}(\bar X-\bar Y-\theta_0)/S$ ，注意当假设成立时，这仍然是一个t分布

该方法可以检验两个学习器的性能是否有显著区别，机器学习中还会采用交叉验证t检验的方法，即“ $5\times2$ 交叉验证”，建议翻书

其他情况

翻书、翻书……

二分类问题，同数据集下、两算法的比较：可以采用McNemar检验方式，，这种方法计算分类正确和错误的联列表，并构造一个统计量满足卡方分布
多数据集、多算法的比较：可以采用Friedman检验和Nemenyi检验。这两种方法都对算法性能在不同数据集上进行排序，计算平均序值。Friedman构造统计量满足卡方分布或F分布。Nemenyi检验计算平均序值差别的临界值域，当两算法的平均序值之差大于临界值域，则拒绝“两算法性能相同”这一假设。

参考文献：
[1] 周志华. 机器学习. 清华大学出版社. 2016.
[2] 陈希孺. 概率论与数理统计. 中国科学技术大学出版社. 2009.
[3] Trevor Hastie et al. The Elements of Statistical Learning, Second Edition. Springer. 2009.