【AI】数学基础——数理统计（假设检验&数据处理）

AmosTian

于 2023-08-31 01:06:39 发布

阅读量464

点赞数

分类专栏：数学 AI # 机器学习文章标签：人工智能机器学习 AI 数理统计假设检验

本文为博主（@AmosTian）原创文章。1241211485@qq.com

本文链接：https://blog.csdn.net/qq_40479037/article/details/132588173

版权

数学同时被 3 个专栏收录

47 篇文章 62 订阅

订阅专栏

21 篇文章 2 订阅

订阅专栏

机器学习

21 篇文章 4 订阅

订阅专栏

概率论
 数理统计（概念&参数估计）

3.8 假设检验

假设：对总体参数的数值表示 $=, <, >$

假设检验：用统计数据判断命题真伪的方式。

假设成立：模型参数是否在统计学误差允许的范围内

小概率事件原理 ：在数理统计中，发生概率小于 1% 的事件被称为小概率事件，在单次实验中被认为是不可能发生的

在一次实验中小概率事件一旦发生，就有理由拒绝原假设

“小概率事件”的概率越小，否定原假设 $H_0$ 就越有说服力

3.8.1 提出假设

原假设：对总体参数做一个尝试性的假设，该假设被称为原假设，记为 $H_0$ ，待推翻的

备择假设：与 $H_0$ 完全相反的假设

在统计学里，命题不能被证明是正确的，只能证明其否命题是错误的

假设检验的过程就是根据样本数据来对这两个对立的假设进行检验的过程。一般来说，我们将想要推翻的假设作为原假设，而将想要检验证实的问题作为备择假设。

3.8.2 构建检验统计量

对均值检验

在这里插入图片描述

对方差检验

在这里插入图片描述

3.8.3 根据显著性水平确定拒绝域临界值

显著性水平

假定原假设不发生 $P(H_1)=\alpha(0<\alpha<1)$ 为小概率事件，称为 检验的显著性水平

它代表了：当原假设为真时，检验统计量落在拒绝域，从而拒绝原假设的概率，也叫做第一类错误（弃真）

原假设为真，拒绝原假设的概率
估计总体参数在某一区间，可能犯错的概率

拒绝域

拒绝域面积为小概率事件概率 $\alpha$ ，称为 显著性水平

接收域，接收域的面积为原假设发生的概率 $P(H_0)=1-\alpha$

检验统计量落在拒绝域中，则拒绝原假设

临界值 是拒绝域的边界，即使拒绝域面积为 $\alpha$ （显著性水平）的值

在这里插入图片描述

3.8.4 计算统计量，确定P值

P值是一个概率值，如果假设为真，P值是抽样分布中大于或小于样本统计量的概率

P值越小， $H_0$ 越不可能为正确——拒绝程度越大

左侧检验：P值为小于检验统计量的部分
右侧检验：P值为大于检验统计量的部分

3.8.5 根据临界值法决定是否拒绝原假设

在双侧检验中，如果检验统计量 $z\le -z_\frac{\alpha}{2}$ 或者 $z\ge z_\frac{\alpha}{2}$ ，则拒绝原假设

在左侧检验中，如果检验统计量 $z\le -z_\alpha$ ，则拒绝原假设

在右侧检验中，如果检验统计量 $z\ge z_\alpha$ ，则拒绝原假设

在判断错的概率为 $\alpha$ 时，认为原假设是不成立的

3.8.6 三种检验

Z检验

检验一个样本均值与已知的总体样本平均数（统计数据）是否有显著差异

$Z=\frac{\overline{X}-\mu}{\sigma_{\overline{X}}}=\frac{\overline{X}-\mu}{\sigma/ \sqrt{n}}$
检验来自两组样本的均值是否有差异，进而两样本总体是否有差异

$Z=\frac{\vert \overline{X}_1-\overline{X}_2 \vert}{S_{\overline{x}_1-\overline{x}_2}}=\frac{\vert \overline{X}_1-\overline{X}_2\vert}{\sqrt{s_1^2/n_1+s^2_2/n_2}}$

检验原理

标准正态分布理论

$f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\xrightarrow{标准化t=\frac{(x-\mu)}{\sigma}}f_N(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{t^2}{2}}$

由于 $\sigma$ 已知，故用方差代替标准差 $s=\frac{\sigma}{\sqrt{n}}$
当总体标准差已知，样本量较大时，用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著

常用临界值

双侧： $Z_{0.05/2}=1.96,Z_{0.01/2}=2.58$

单侧： $Z_{0.05}=1.645,Z_{0.01}=2.33$

eg1：

假设正常人与高血压患者胆固醇含量资料如下，试比较两组血清胆固醇含量是否有差别

正常人组： $n_1=506,\overline{x_1}=180.6,s_1=34.2$

高血压组： $n_2=142,\overline{x_2}=223.6,s_2=45.8$
$\begin{array}{r|lll} 建立假设，确定显著性水平&H_0：\mu_1=\mu_2\qquad H_1:\mu_1\neq \mu_2\qquad \alpha=0.05\\ 计算统计量&Z=\frac{\vert\overline{X_1}-\overline{X_2}\vert}{\sqrt{s_1^2/n_1+s_2^2/n_2}}=\frac{\vert180.6-223.6\vert}{\sqrt{34.2^2/506+45.8^2/142}}=10.4\\ 确定临界值&查表 1-\frac{\alpha}{2}=1-0.025=0.975\Rightarrow z_{\frac{\alpha}{2}}=z_{1-\frac{\alpha}{2}}=1.96\\ 决策&z>z_{1-\frac{\alpha}{2}}，故拒绝H_0，认为有差异，接受 H_1，认为正常人与高血压患者的胆固醇含量有差别 \end{array}$
在这里插入图片描述

eg2：

在这里插入图片描述

T检验

单个样本T检验：比较一组数据均值与一个数值有无差异
配对样本均值检验（非独立两样本数均数T检验）：一组数据在处理前后均值是否有差异
两独立样本均值T检验：两组数据均值有无差异

单个样本T检验

适用于样本均值 $\mu$ 与已知总体均数 $\mu_0$ 的比较，目的是检验样本均数 $\mu$ 与总体均数 $\mu_0$ 有差别

已知总体均数 $\mu_0$ 一般为标准值、理论值或经大量观察得到的较稳定的指标量

应用条件：总体标准 $\sigma$ 未知的小样本资料，且服从正态分布

在这里插入图片描述

非独立两样本T检验

适用于 配对设计 计量资料均数的比较

配对设计 ：将受试对象按某些特征相近的原则配成对子，每对中的两个个体随机地给予两种处理

检验原理

计算各对数据间的差值 $\Delta d$ ，将 $\Delta d$ 作为变量计算均数，假设 $\Delta d$ 服从总体均值 $\mu_{\Delta d}=0$ 的总体分布

$t=\frac{\overline{\Delta d}-\mu_{\Delta d}}{S_{\overline{\Delta d}}}=\frac{\overline{\Delta d}-0}{S_{\overline{\Delta d}}}=\frac{\overline{\Delta d}}{S_{\Delta d}/\sqrt{n}}$

在这里插入图片描述

$\begin{array}{r|l} 建立检验假设，确定显著性水准&H_0:\mu_d=0\qquad H_1:\mu_d\neq 0\qquad \alpha=0.05\\ 计算检验统计量&\sum d=39\qquad \sum d^2=195\\ 计算差值的标准差&S_d=\sqrt{\frac{\sum d^2-\frac{(\sum d)^2}{n}}{n-1}}=\sqrt{\frac{195-\frac{(39)^2}{12}}{12-1}}=2.4909\\ 计算差值的标准差&S_{\overline{d}}=\frac{S_d}{\sqrt{n}}=\frac{2.4909}{3.464}=0.7191\\ 计算统计量&t=\frac{\overline{d}}{S_{\overline{d}}}=\frac{3.25}{0.7191}=4.5195\\ 确定临界值&自由度 v=n-1=12-1=11，查表可得 t_{\frac{\alpha}{2}}(11)=2.201\\ 决策&由于 t=4.5195>t_{\frac{\alpha}{2}}(11)\\ &P<0.05，拒绝H_0，接收H_1，结果有差别 \end{array}$

两独立样本T检验

用于验证两样本所来自的总体均值是否相等

要求

两样本总体均服从正态分布
方差齐性： $\sigma_1^2=\sigma_2^2$

检验原理

假设两样本总体均值 $\mu_1=\mu_2$

$t=\frac{\vert (\overline{X_1}-\overline{X_2})-(\mu_1-\mu_2)\vert}{S_{\overline{X_1}-\overline{X_2}}}=\frac{\vert \overline{X_1}-\overline{X_2}\vert}{S_{\overline{X_1}-\overline{X_2}}}$

$S_{\overline{X_1}-\overline{X_2}}=\sqrt{S_c^2(\frac{1}{n_1}+\frac{1}{n_2})}$

$S_c^2=\frac{\sum x_1^2-\frac{(\sum x_1)^2}{n_1}+\sum x_2^2-\frac{(\sum x_2)^2}{n_2}}{n_1+n_2-2}$

在这里插入图片描述

$\begin{array}{r|l} 建立检验假设，确定显著性水平&H_0:\mu_1=\mu_2\qquad H_2:\mu_1\neq \mu_2\qquad \alpha=0.05\\ 计算统计量&由原始数据：\\ &n_1=12,\sum X_1=182.5,\overline{X_1}=\frac{\sum X_1}{n_1}=15.21,\sum X_1^2=2953.43\\ &n_2=13,\sum X_2=141,\overline{X_1}=\frac{\sum X_2}{n_2}=10.85,\sum X_2^2=1743.16\\ &S_c=\frac{2953.43-\frac{182.5^2}{12}+1743.16-\frac{141^2}{13}}{12+13-2}=17.03\\ &S_{\overline{X_1}-\overline{X_2}}=\sqrt{17.03\left(\frac{1}{12}+\frac{1}{13}\right)}=1.652\\ &t=\frac{15.21-10.85}{1.652}=2.639\\ 确定临界值&v=n_1+n_2-2=23,查t界值表，t_{0.05/2}(23)=2.069\\ 决策&由于统计量t>t_{0.05/2}(23)，按\alpha=0.05的水准，拒绝H_0，接受H_1\\ &故可以认为两种疗法不同 \end{array}$

T检验应用条件

两种计量数据的小样本比较
样本对总体有较好代表性，对比组间均衡性——随机抽样和随机分组
样本总体来自正态分布总体，配对T检验要求差值服从正态分布
大样本时使用z检验
两独立样本均数t检验要求方差齐性——两组总体方差相等或两样本方差间无显著性

正态性检验

在这里插入图片描述

峰度检验

主要计算峰系数

$H_0：G_2=0$ ，总体分布为正态峰

$H_1$ ： $G_2\neq 0$ ，总体分布不是正态峰

在这里插入图片描述

方差齐性检验

$F=\frac{S_1^2(较大)}{S_2^2(较小)}$ ， $v_1=n_1-1$ ， $v_2=n_2-1$

式中， $S_1^2$ 为较大样本方差， $S_2^2$ 为较小样本方差，分子的自由度为 $v_1$ ，分母的自由度为 $v_2$ ，相应样本数分别为 $n_1,n_2$ 。

$F$ 值为两个样本方差值比，如仅是抽样误差的影响，它一般不会离1太远。反之如果F值较大，两总体方差相同的可能性较小。

F分布就是反映此概率的分布。

求得F值后，查F界值表得P值。

$F\ge F_{\alpha/2(v_1,v_2)}$ ，则 $P<\alpha$ ，拒绝 $H_0$ ，可以认为两总体方差不等
若不拒绝 $H_0$ ，可认为两总体方差相等

X胸片上测得两组患者肺门横径右侧距 $R_1$ 值(cm)，比较其方差是否齐性

肺癌患者： $n_1=10$ ， $\overline{X_1}=6.21$ ， $S_1=1.79$

矽肺患者： $n_2=50$ ， $\overline{X_2}=4.34$ ， $S_2=0.56$
$\begin{array}{r|l} 建立假设,确定显著性水平&H_0:\sigma_1^2=\sigma_2^2\qquad H_2:\sigma_1^2\neq \sigma_2^2\\ 计算F值&F=\frac{1.79^2}{0.56^2}=10.22\\ 确定P值，决策&v_1=n_1-1=9,v_2=n_2-1=49,查F值表,F_{0.1/2}（9,49）=2.8\\ &得P<0.05=\alpha，故拒绝H_0，接受H_1,认为两总体方差不齐 \end{array}$

卡方检验

用于检验两个率（构成比）之间差别是否有统计学意义
配对卡方检验检验配对计数数据的差异是否有统计学意义

基本思想

检验实际频数 $A$ 和理论频数 $T$ 的差别是否由抽样误差引起。

由样本率（样本构成比）推断总体率(构成比)

理论频数计算

一般的四格子表
$\begin{array}{c|ccc} &B_1&B_2&合计\\ \hline A_1&a&b&a+b\\ A_2&c&d&c+d\\ \hline 合计&a+c&b+d&n=a+b+c+d \end{array}$
基本公式： $\chi^2=\sum\frac{(A_{RC}-T_{RC})^2}{T_{RC}}$

$A_{RC}$ 是位于 $R$ 行 $C$ 列交叉处的实际频数， $T_{RC}$ 是位于 $R$ 行 $C$ 列交叉处的理论频数， $A_{RC}-T_{RC})$ 反映实际频数与理论频数的差距，除以 $T_{RC}$ 为的是考虑相对差距。所以， $\chi^2$ 值反映了实际频数与理论频数的吻合程度。

$\chi^2=\sum\frac{(A-T)^2}{T}=\frac{a-\frac{\left[(a+b)(a+c)\right]^2}{n}}{\frac{(a+b)(a+c)}{n}}+\frac{b-\frac{\left[(a+b)(b+d)\right]^2}{n}}{\frac{(a+b)(b+d)}{n}}+\frac{c-\frac{\left[(c+d)(a+c)\right]^2}{n}}{\frac{(c+d)(a+c)}{n}}+\frac{d-\frac{\left[(c+d)(b+d)\right]^2}{n}}{\frac{(c+d)(b+d)}{n}}\\=\frac{(ad-bc)^2\cdot n}{(a+b)(c+d)(a+c)(b+d)},v=1$

若假设 $H_0:\pi_1=\pi_2$ 成立，四个格子的实际频数 $A$ 与理论频数 $T$ 相差不应该很大，即统计量 $\chi^2$ 不应该很大。如果 $\chi^2$ 很大，即对应的 $P$ 值很小，若 $P\le \alpha$ ，则反过来推断 $A$ 与 $T$ 相差很大，超出了抽样误差允许的范围，从而怀疑 $H_0$ 的正确性，进而拒绝 $H_0$ ，接受 $H_1$ ，即 $\pi_1\neq \pi_2$

$\chi^2$ 值的大小除了与实际频数和理论频数有关外，还与它们的行、列数有关，即自由度的大小

$v=\chi^2自由度=(行数-1)\times (列数-1)$

某药品检验所随机抽取574名成年人，研究抗生素的耐药性，问这两种人群的耐药率是否一致？
$实际数据\\ \begin{array}{c|cccc}\\ 用药史&不敏感&敏感&合计&耐药率\\ \hline 曾服该药&180&215&395&\frac{180}{395}=45.57\%\\ 未服该药&73&106&179&\frac{73}{179}=40.78\%\\ \hline 合计&253&321&574&\frac{253}{574}=44.08\% \end{array}$
理论耐药率为44.08%
$理论数据\\ \begin{array}{c|cccc}\\ 处理&有效&无效&合计&有效率\\ \hline 曾服该药&174.10&220.90&395&\frac{174.1}{395}=44.08\%\\ 未服该药&78.90&100.10&179&\frac{78.9}{179}=44.08\%\\ \hline 合计&253&321&574&\frac{253}{574}=44.08\% \end{array}$

建立假设，并确定显著性水平

$H_0$ ：两种人群对该抗生素的耐药性相同，即 $\pi_1=\pi_2$ （两总体率相等）

$H_1$ ：两种人群对该抗生素的耐药性不同，即 $\pi_1\neq \pi_2$ （两总体率不相等）

$\alpha=0.05$
计算统计量

$\chi^2=\frac{(180-174.1)^2}{174.10}+\frac{(215-220.9)^2}{220.9}+\cdots=23.12$
决策

查表确定P值， $P > 0.05$ ，得出结论，按0.05水平，不拒绝 $H_0$ ，可以认为两组人群对该抗生素的耐药率的差异无统计学意义

3.8.7 假设检验的两类错误

第一类错误（弃真错误）

原假设为真时拒绝原假设
第一类错误的概率为 $\alpha$

第二类错误（取伪错误）

原假设为假时接收原假设
第二类错误的概率为 $\beta$

第一类错误出现原因

只抽了一个样本，而个别的样本可能是特殊的。不管抽样多么符合科学抽样的要求，都有很多中构成样本的可能性，即会有很多样本平均数。由于小概率事件的出现，我们把本来真实的原假设拒绝了。

第二类错误出现的原因

统计检验的逻辑犯了从结论推断前提的错误。命题B是由命题A经演绎推论出来的( $A\rightarrow B$ ) 。如果A是真的，且我们从A到B的演绎推论如果是正确的，那么B可能是真实的。

相反，如果B是真实的，就不能得出A必定是真实的结论。这就是出现第二类错误的原因。

3.8.8 假设检验在监督学习中的作用

监督学习算法的任务就是在假设空间中搜索能够针对特定问题做出良好预测的假设。

学习器通过对测试数据集的学习得到具有普适性的模型，这个模型适用于不属于测试集的新样本的能力被称为泛化能力
泛化能力越强，学习器越好

假设检验的作用在于根据学习器在测试集上的性能推断其泛化能力的强弱，并确定所得到的结论的精确程度。

假设检验中的假设是对学习器的泛化错误率的推断，依据是在测试集上的测试错误率

泛化误差：

偏差(bias)：算法预测值与真实结果之间的偏离程度，刻画模型的欠拟合性
方差(vartance)：数据的扰动对预测性能的影响，刻画模型的过拟合性
噪音(noise)：当前学习任务上能够达到的最小泛化误差，刻画任务本身难度

方差与偏差难以同时优化——欠拟合与过拟合之间的矛盾

3.9 数据处理

3.9.1 核函数

适用情况

数据维度较小，通过不同维度指标生成新的维度

如：

$\left\{\begin{aligned}&二维：低维不可分情况\\&\downarrow\\&高维：线性可分\end{aligned}\right.$

在这里插入图片描述

但会导致计算量的增加，需要考虑是否可计算问题

高斯核函数

$K(X,Y)=e^{-\frac{\Vert X-Y\Vert^2}{2\sigma^2}}$

用两个样本点间的距离度量 生成(表征) 差异性/相似程度

高斯核函数可将特征映射为无穷维

$x$ 与 $x^{'}$ 为两个不同维度的取值
$\begin{aligned} K(X,X')&=e^{-(X-X')^2}=e^{-X^2}e^{-X'^2}e^{-2(X,X')}\xlongequal{Talor}e^{-X^2}e^{-X'2}\sum_{i=0}^\infty \frac{(2X^TX')^i}{i!}\\ &=e^{-X^2}e^{-X'^2}\sum_{i=1}^\infty \sqrt{\frac{2^i}{i!}}\sqrt{\frac{2^i}{i!}}X^{Ti}X'^i=\sum\limits_{i=0}^\infty \left[\sqrt{\frac{2^i}{i!}}X^ie^{-X^2}\right]\cdot\left[\sqrt{\frac{2^i}{i!}}X'^ie^{-X'^2}\right]\\ &=\Phi(X^T)\Phi(X') \end{aligned}$
$\Phi(X)=e^{-X^2}(1,\sqrt{2}X,\sqrt{2}X^2,\cdots)$

$\Phi(X')=e^{-X'^2}(1,\sqrt{2}X',\sqrt{2}X'^2,\cdots)$

eg：

$X_i=\left(x_{i1},x_{i2},\cdots,x_{ip}\right)$

$F_1$ ： $K(X_i,X_1)$
$F_2$ ： $K(X_i,X_2)$
$\vdots$
$F_n$ ： $K(X_i,X_n)$

$X_i=\left(x_{i1},x_{i2},\cdots,x_{ip},F_1,\cdots,F_n\right)$

高斯分布对参数敏感

$\sigma$ 越小， $K (X, X^{'})$ 越大，特征的区分度越大，但过拟合程度越大，稳定性越大

在这里插入图片描述

当样本点之间相似度高，需调小 $\sigma$ ，使区分度更加明显

在这里插入图片描述

核函数计算问题

由于核函数使计算量增大，需要解决

$\quad低维映射到高维，计算高维结果\xRightarrow{转变为} 计算低维结果，再映射为高维结果$

$X=\left(x_1,x_2,x_3\right)$ ， $Y=\left(y_1,y_2,y_3\right)$ ，若三维空间线性不可分

假设通过 $f(X)=(x_1x_1,\cdots,x_1x_3,x_2x_1,\cdots,x_2x_3,x_3x_1,\cdots,x_3x_3)$ ， $f(Y)=(y_1y_1,\cdots,y_1y_3,y_2y_1,\cdots,y_2y_3,y_3y_1,\cdots,y_3y_3)$ 变为九维空间
$\left<f(X),f(Y)\right>=f^T(Y)\cdot f(X)=\sum\limits_{i=1}^n\sum\limits_{j=1}^n(x_ix_j)\cdot(y_iy_j)$
时间复杂度为 $O(n^2)$
$K(X,Y)=(\left<X,Y\right>)^2=\left(\sum\limits_{i=1}^nx_iy_i\right)^2$
时间复杂度为 $O (n)$

3.9.2 熵

反映物体内部混乱程度（一个事件发生的不确定性）

$H(X)=-\sum\limits_{x\in \chi}P(x)logP(x)$

熵值大小意义

事件越多， $P(事件_i)$ 越小，系统结果的不确定性越多（熵值）

由 $0\le P(x)\le 1$ ， $\log P(x)<0$ ， $-\log P(x)=\vert P(x)\vert$

若系统由很多小概率事件组成，则 $\sum \vert \log P(x) \vert$ 会很大，可表示系统不确定性大

熵可用作分类效果指标

在这里插入图片描述

$P(A_\circ)=1,P(B_\circ)=0,P(C_\circ)=0$

$P(A_\triangle)=0,P(B_\triangle)=1,P(C_\triangle)=0$

$P(A_\square)=0,P(B_\square)=0,P(C_\square)=1$

$H(A)=-\sum P(A_i)log P(A_i)=0$ ， $H (B) = H (C) = 0$

在这里插入图片描述

$P(A_\circ)=\frac{1}{3},P(B_\circ)=\frac{1}{3},P(C_\circ)=\frac{1}{3}$

$P(A_\triangle)=\frac{1}{3},P(B_\triangle)=\frac{1}{3},P(c_\triangle)=\frac{1}{3}$

$P(A_\square)=\frac{1}{3},P(B_\square)=\frac{1}{3},P(C_\square)=\frac{1}{3}$

$H(A)=-\sum P(A_i)log P(A_i)=3\left(-\frac{1}{3}log\frac{1}{3}\right)=log3=H(B)=H(C)$

综合来看， $H (②) > H (①)$ ，①的熵小，分类效果好

3.9.3 激活函数

非线性函数

sigmod函数

将数据压缩到 $[0, 1]$

在这里插入图片描述

分类问题：将各类别输出变换为概率值

问题

杀死梯度

边缘情况，梯度为0
非原点中心对称

只有正值，导致梯度为正或全为负，会产生阶梯式情况（收敛较慢）

AmosTian

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【AI】数学基础——数理统计（假设检验&数据处理）

假设检验：提出假设，构建检验统计量，根据显著性水平确定拒绝域临界值，计算统计量，根据临界值法决定是否拒绝原假设Z检验，T检验，卡方检假设检验中的两种错误，假设检验在监督学习中的作用数据处理，核函数，线性核函数，多项式核函数，高斯核函数熵，激活函数
复制链接

扫一扫