python 检验两个样本均值是否相同_双样本T检验——机器学习特征工程相关性分析实战...-CSDN博客

本文介绍了如何使用Python进行双样本T检验来分析机器学习中的特征工程，特别是在检验两个样本均值差异显著性方面的应用。通过假设检验流程，包括设置显著性值、收集证据和得出结论，作者展示了如何在房价预测数据集上进行实战操作，以确定特征CHAS对房价的影响。实验证明，CHAS特征与房价具有显著相关性。

摘要由CSDN通过智能技术生成

最近在做数据分析方面的工作，经常需要检验两组样本之间是否存在差异，所以会遇到统计学中假设检验相关的知识。在机器学习特征工程这一步，笔者最常用到的是假设检验中的卡方检验去做特征选择，因为卡方检验可以做两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。但是笔者今天想介绍一下通过T检验做机器学习中的特征工程，希望能够让大家初步了解到各种假设检验是如何在机器学习项目的特征工程发挥作用。

假设检验简介

统计学中，常见的假设检验有：T检验（Student's t Test），F检验（方差齐性检验），卡方验证等。无论任何假设检验，它们都遵循如下图所示的流程： + 做两个假设：一般如果假设对象是两组样本的话，都会假设这两组样本均值相等（T检验的假设），方差满足齐次性（F检验的假设）等。而另一个假设其实就是两组样本均值不相等（T检验的假设），方差不满足齐次性（F检验的假设）等，其实这两个假设就是一对非此即彼的选项。这两个假设在教科书上就叫做原假设$H_0$，和备择假设$H_1$。 + 设置一个显著性值：通俗点理解，就是真实的情况偏离原假设的程度。 1.如果真实情况和原假设差异不大（P值高于显著性值），那证明原假设是对的，接受原假设。 2.如果真实情况和原假设差异太大（P值低于显著性值），那证明原假设错了，我们得拒绝原假设，接受备择假设。显著性值的选择是个经验值：一般和样本量有关，样本量越大，显著性值越大，一般几百