什么是卡方检验
卡方检验是一种用途很广的基于卡方分布的假设检验方法,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。其主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相互独立。
卡方检验分类
卡方检验步骤
卡方检验可以参照一般假设检验步骤:设置原假设与备择假设
设置显著性水平
根据问题选择具体的假设检验方式
计算统计量,并通过统计量获取P值
根据P值与显著性水平,决定接受原假设还是备择假设
一般可以设原假设为:观察频数与期望频数没有差异,或者两个变量相互独立不相关。
卡方检验的计算公式为:
从公式也可以看出它是利用类别变量的观测值频数与期望值频数进行构建的。
卡方检验的应用实例应用实例--拟合优度检验
以掷骰子为例,有一天小王同学闲来无事,发现桌上刚好有一枚骰子,身为数据分析师的他,好奇骰子是不是均匀的,于是他连着投掷了120次,并统计了各点出现的次数。由于原假设骰子是均衡的,所以每点数期望值都为20。
第一步我们确定原假设即骰子是均衡的,第二步设置显著性水平α=0.05,在确立使用卡方检验之后
确定上述统计值之后,并结合卡方表就可对其进行判断。
接下来用python实现
import pandas as pd
import numpy as np
from scipy import stats
#创建上述表
observed_pd = pd.DataFr