简介
数据不符合正态分布时,无法直接用t分布和F分布及正态分布来检验数据的显著性。如果检验对于数据分布没有要求,这类检验统称为非参数检验。本文将介绍其中的一种拟合优度检验。
拟合优度检验—期望频数相等
假设,有家餐馆对顾客对于肉类的是否存在偏好进行调研得到如下数据,调研了120人,得到了他们对于肉类的选择频数分布表如下:
肉类 | 频数 |
---|---|
鸡肉 | 32 |
鱼肉 | 24 |
猪肉 | 35 |
牛肉 | 29 |
总计 | 120 |
如何确定顾客是否对某一特定肉类存在偏好,需要用到拟合优度检验,通过频数所占比例是否存在差异我们即可推断出顾客对于肉类选择是否存在偏好。
1、做出假设:H0:频数所占比例存在差异。H1:频数所占比例不存在差异。
2、选择置信度:0.05
3、选择测试方法:利用卡方分布进行测试
chi-square = Σ[(f0-fe)**2/fe]
自由度为k-1
4、计算:其中fe为期望频数,f0为实际频数,k为种类数。
肉类 | f0 | fe | f0-fe | f0-fe)**2/fe |
---|---|---|---|---|
鸡肉 | 32 | 30 | 2 | 0.133 |
鱼肉 | 24 | 30 | -6 | 1.200 |
猪肉 | 35 | 30 | 5 | 0.833 |
牛肉 | 29 | 30 | -1 | 0.033 |
总计 | 120 | 120 | 0 | 2.200 |
5、2.200对于的p_value 为0.5319远大于0.05故接受原假设H0。认为顾客对于肉类没有特殊偏好。
利用python编写代码如下:
def GOF_test_EEF(data, sig):
n_total = data.iloc[:,0].sum()
k = len(data.iloc[:,0])
df