卡方检验是一种用途很广的基于卡方分布的假设检验方法,
根本思想就是比较理论频数和实际频数的吻合程度或拟合优度问题。
主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相互独立。
公式是利用类别变量的观测值频数与期望值频数进行构建的。
#方法一
crit = stats.chi2.ppf(q=0.95,df=5) #95置信水平 df = 自由度
print(crit) #临界值,拒绝域的边界 当卡方值大于临界值,则原假设不成立,备择假设成立
P_value = 1-stats.chi2.cdf(x=chi_squared_stat,df=5)
print('P_value')
print(P_value)
# 方法二
stats.chisquare(f_obs=observed, #Array of obversed counts
f_exp=expected) #Array of expected counts
卡方分箱是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(chi-Square)进行判别,
分箱的基本思想是判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。
参考:
https://zhuanlan.zhihu.com/p/128905132
https://blog.csdn.net/weixin_36437103/article/details/112334482(理解自由度)
https://blog.csdn.net/weixin_42097808/article/details/80494939(卡方分箱解释实例)
https://blog.csdn.net/CarryLvan/article/details/108775507(分箱代码)
https://blog.csdn.net/resourse_sharing/article/details/51852331(卡方计算)