卡方检验理论与特征选择实现

最新推荐文章于 2023-07-04 16:13:16 发布

LIUZY615

最新推荐文章于 2023-07-04 16:13:16 发布

阅读量2.4k

点赞数 1

分类专栏：练习文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liu_ziyue/article/details/104880386

版权

本文深入探讨了卡方检验的理论，包括定义、基本思想、独立四格表、八格表的计算，以及自由度和卡方值的意义。通过三个案例分析，展示了如何使用Python进行卡方检验，并解释了检验结果。案例涵盖了文理分科态度差异、死亡年龄与居住地、性别的关系，以及泰坦尼克号乘客生存因素的分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.理论

1. 定义

卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

2. 卡方检验的基本思想

卡方检验是以χ2分布为基础的一种常用假设检验方法，它的基本假设H0是：观察频数与期望频数没有差别。

2.1) 基本思想

1.首先假设H0成立。
2.基于此前提计算出χ2值，它表示观察值与理论值之间的偏离程度。
3.根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝原假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。

同一自由度下χ2越大，P越小。

这里用一个通俗易懂的公式表示（公式分子表示差异程度，分母表示期望频数）：
observed为观察频数，expected为期望频数。
接下来介绍两种比较特殊又比较常见的情况

2.2) 独立四格表

当样本是一张单独的四格表时，其卡方值用如下公式计算：
在这里插入图片描述

2.3) 八格表

在这里插入图片描述
nr代表nr1、nr2、nr3、nr4，nc代表nc1、nc2。
例如a的nr、nc 就是nr：nr1，nc：nc1。

八格表的无效假设：特征1，特征2，特征3，特征4都与特征A没有关系，若观察频数与期望存在差异，则至少有一种特征与特征A存在关系。

2.4) 自由度

自由度指的是不受限制的变量的个数。
一般情况下，自由度=（行数-1）*（列数-1）

2.5) 卡方值的意义

χ2值中包含了：

观察频数与期望频数偏差的平方大小，和差异程度与期望频数（理论值）的相对大小。
当观察频数与期望频数完全一致时，χ2值为0；二者差异越大，χ2值越大。换言之，小的χ2值表明接近假设；大的χ2值表明远离假设。

2.6) 校正

当样本含量大于40但有理论频数小于5的情况时，卡方需要校正。公式如下：
在这里插入图片描述
一般认为列表中不宜有1/5以上数据的理论频数小于5，或有小于1的理论频数。若有，可用增大样本含量等方法调整数据。

二.案例

1. 例1

从某中学随机抽取两个班，调查他们对待文理分科的态度，结果，甲班37人赞成，27人反对；乙班39人赞成，21人反对，这两个班对待文理分科的态度是否有显著差异(α= 0.05)?

1.1) 建立假设检验

H0：r1＝r2，两个班对待文理分科的态度无显著差异
H1：r1 ≠ r2，两个班对待文理分科的态度有显著差异
α=0.05
在这里插入图片描述

1.2) Pyton实现

最低0.47元/天解锁文章

博客等级

码龄8年

18
原创

56
点赞

417
收藏

71
粉丝

关注

私信

热门文章

分类专栏

练习 15篇

最新评论

Bilibili综合分析
守望天空165: 博主你好，有源数据吗，csv文件，源代码也行，可以付费
旧金山犯罪预测与可视化分析
热血到烫嘴: 能教我一下吗
Bilibili综合分析
m0_73646460: 博主你好，这个是有现成的数据集嘛，还是爬取的呀？要是有现成的可以给我发一下嘛，如果是爬取的，能教一下怎么爬吗？[耶耶耶]
旧金山犯罪预测与可视化分析
2201_76130840: 逻辑回归不是解决二分类问题的吗，为什么可以用来预测多分类问题
广告投放分析（Python,Sql）
こがみけい: 博主在“分析维度”里放了链接的呀，点进去可以去阿里天池下载

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。