卡方检验理论与特征选择实现

本文深入探讨了卡方检验的理论,包括定义、基本思想、独立四格表、八格表的计算,以及自由度和卡方值的意义。通过三个案例分析,展示了如何使用Python进行卡方检验,并解释了检验结果。案例涵盖了文理分科态度差异、死亡年龄与居住地、性别的关系,以及泰坦尼克号乘客生存因素的分析。
摘要由CSDN通过智能技术生成

一.理论

1. 定义

卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

2. 卡方检验的基本思想

卡方检验是以χ2分布为基础的一种常用假设检验方法,它的基本假设H0是:观察频数与期望频数没有差别。

2.1) 基本思想

1.首先假设H0成立
2.基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度
3.根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。

同一自由度下χ2越大,P越小。

这里用一个通俗易懂的公式表示(公式分子表示差异程度,分母表示期望频数):
observed为观察频数,expected为期望频数。
接下来介绍两种比较特殊又比较常见的情况

2.2) 独立四格表

当样本是一张单独的四格表时,其卡方值用如下公式计算:
在这里插入图片描述

2.3) 八格表

在这里插入图片描述
nr代表nr1、nr2、nr3、nr4,nc代表nc1、nc2。
例如a的nr、nc 就是nr:nr1,nc:nc1。

八格表的无效假设:特征1,特征2,特征3,特征4都与特征A没有关系,若观察频数与期望存在差异,则至少有一种特征与特征A存在关系。

2.4) 自由度

自由度指的是不受限制的变量的个数。
一般情况下,自由度=(行数-1)*(列数-1)

2.5) 卡方值的意义

χ2值中包含了:

  1. 观察频数与期望频数偏差的平方大小,和差异程度与期望频数(理论值)的相对大小。
  2. 观察频数与期望频数完全一致时,χ2值为0二者差异越大,χ2值越大。换言之,小的χ2值表明接近假设;大的χ2值表明远离假设

2.6) 校正

当样本含量大于40但有理论频数小于5的情况时,卡方需要校正。公式如下:
在这里插入图片描述
一般认为列表中不宜有1/5以上数据的理论频数小于5,或有小于1的理论频数。若有,可用增大样本含量等方法调整数据。

二.案例

1. 例1

从某中学随机抽取两个班,调查他们对待文理分科的态度,结果,甲班37人赞成,27人反对;乙班39人赞成,21人反对,这两个班对待文理分科的态度是否有显著差异(α= 0.05)?

1.1) 建立假设检验

H0:r1=r2,两个班对待文理分科的态度无显著差异
H1:r1 ≠ r2,两个班对待文理分科的态度有显著差异
α=0.05
在这里插入图片描述

1.2) Pyton实现

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值