2×3卡方检验prism_卡方检验2python代码实现

统计学,风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心,让分箱具有统计学意义(单调性)。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。但很多建模人员搞不清楚卡方分箱原理。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。欢迎各位同学学习更多相关知识

腾讯云课堂:python金融风控评分卡模型和数据分析
https://ke.qq.com/course/package/31250?tuin=dcbf0ba

微信公众号:pythonEducation模型和统计项目QQ:231469242

分类变量检验方法

112ee5504aa56125870705b09509e114.png

20446698c343377b3bb985ef602d7837.png

839b133c9429859694822d9aae5f85bb.png

862a7490cc54c64b23caae5da2bb23b1.png

292c43b93bdfe8fd9dffa218c5739a2b.png

5dff656078a414f6c65bd45d29a23179.png

卡方分布绘图

如果多个符合正态分布的独立随机变量z1,z2,z3.....zk,
z1+z2+z3+....z_k呈现卡方分布,自由度k.
有几个正态分布相加,就有几个自由度1ec77fd8024c5421fa6e5f6004b8a7a1.png

6f0ab7d3b3f3a8d219f5e80dd53ad2fb.png

61039f2f501d04090f8161614ca53cd4.png

# -*- coding: utf-8 -*-'''腾讯云课堂:python金融风控评分卡模型和数据分析:https://ke.qq.com/course/package/31250?tuin=dcbf0ba微信公众号:pythonEducation模型和统计项目QQ:231469242'''import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as statsimport seaborn as snsimport math,pylab,matplotlib,numpyfrom matplotlib.font_manager import FontProperties #设置中文字体font=FontProperties(fname=r"c:\windows\fonts\simsun.ttc",size=15) n=10 #绘制自由度为n的卡方分布图,n表示生成卡方数组的个数def Get_chisquareDatas(n):    #标准正太分布    normalDistribution=stats.norm(0,1)    list_data=[]    for i in range(n):        normal_data=normalDistribution.rvs(30)        chisquare_data=normal_data**2        list_data.append(chisquare_data)    return list_data     def Plot_chisquare(n):    list_data=Get_chisquareDatas(n)    sum_data=sum(list_data)    plt.hist(sum_data)     Plot_chisquare(2)Plot_chisquare(3)Plot_chisquare(10)

官方绘图代码

ebffd5dc73700fe14cddc3817bafa0d6.png

# -*- coding: utf-8 -*- '''腾讯云课堂:python金融风控评分卡模型和数据分析:https://ke.qq.com/course/package/31250?tuin=dcbf0ba微信公众号:pythonEducation模型和统计项目QQ:231469242'''from scipy.stats import chi2import matplotlib.pyplot as pltimport numpy as npfig, ax = plt.subplots(1, 1) df = 20mean, var, skew, kurt = chi2.stats(df, moments='mvsk') #绘制函数的起始点和终止点#pdf为概率密度函数#百分比函数(PPF) :the inverse of the CDF. PPF  函数和连续分布函数CDF相逆,#比如输入哪一个点,可以得到低于等于20的概率?#ppf(0.01, df)表示输入哪个点,得到概率低于0.01initial=chi2.ppf(0.01, df)end=chi2.ppf(0.99, df)x = np.linspace(initial,end, 100) #概率密度函数用于绘图ax.plot(x, chi2.pdf(x, df), 'r-', lw=5, alpha=0.6, label='chi2 pdf')plt.title("df is %d"%df)plt.show()

卡方检验代码

可汗学院的问题

# -*- coding: utf-8 -*-'''腾讯云课堂:python金融风控评分卡模型和数据分析:https://ke.qq.com/course/package/31250?tuin=dcbf0ba微信公众号:pythonEducation模型和统计项目QQ:231469242''''''卡方公式(o-e)^2 / e期望值和收集到数据不能低于5,o(observed)观察到的数据,e(expected)表示期望的数据(o-e)平方,最后除以期望的数据e''' import numpy as npfrom scipy import statsfrom scipy.stats import chisquare        list_observe=[30,14,34,45,57,20]list_expect=[20,20,30,40,60,30]  std=np.std(data,ddof=1)print(chisquare(f_obs=list_observe, f_exp=list_expect))p=chisquare(f_obs=list_observe, f_exp=list_expect)[1]'''返回NAN,无穷小''' if p>0.05 or p=="nan":   print"H0 win,there is no difference"else:   print"H1 win,there is difference"

contigency table联立表

4e178ec1b4872af3a90dd75c3e32727f.png

测试数据

第一行:草本药1,草本药2,安慰剂

第二行:生病和非生病

H0:草本药和疾病无关系

H1:草本药和疾病有关系

可汗学院计算出来的卡方值2.53;自由度2,显著性0.1,的关键值4.6

卡方值2.53

873505dbe1df6facb71ee28a8a528138.png

18301161412ee983ff375595f8ad1072.png

1

python代码与可汗学院算出结果一致,此版本体现算法推导过程。缺点就是要自己计算出期望值列表

ec2063f5e9322110c715fcc428edb445.png

# -*- coding: utf-8 -*-'''卡方公式(o-e)^2 / e期望值和收集到数据不能低于5,o(observed)观察到的数据,e(expected)表示期望的数据(o-e)平方,最后除以期望的数据e联立表contigency table计算'''from scipy.stats import chisquare   list_observe=[34,38,28,50]list_expect=[29.76,42.2,32.24,45.77]row=2colume=2def Contigency_table(row,colume,list_observe,list_expect):    degreeFreedom=(row-1)*(colume-1)    print(chisquare(f_obs=list_observe, f_exp=list_expect,ddof=degreeFreedom))    p=chisquare(f_obs=list_observe, f_exp=list_expect)[1]    if p>0.05 or p=="nan":       print"H0 win,there is no difference"    else:       print"H1 win,there is difference"Contigency_table(row,colume,list_observe,list_expect)

此版本不用算出期望值,更加方便,参考的是2*2联立表,自由度=1,critical value=2.7

# -*- coding: utf-8 -*- '''腾讯云课堂:python金融风控评分卡模型和数据分析:https://ke.qq.com/course/package/31250?tuin=dcbf0ba微信公众号:pythonEducation模型和统计项目QQ:231469242'''#独立性检验test for independence,也是卡方检验chi_square#前提条件:a,b,c,d 必须大于5 #2.706是判断标准(90概率),值越大,越有关,值越小,越无关def value_independence(a,b,c,d):    if a>=5 and b>=5 and c>=5 and d>=5:        return ((a+b+c+d)*(a*d-b*c)**2)/float((a+b)*(c+d)*(a+c)*(b+d)) #返回True表示有关#返回False表示无关def judge_independence(num_independence):    if num_independence>2.706:        print ("there is relationship")        return True    else:        print("there is no relationship")        return False a=34b=38c=28d=50chi_square=value_independence(a,b,c,d)relation=judge_independence(chi_square)

python官网版本,更加方便和科学

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

import scipy.stats as stats data = np.array([[43,9],[44,4]])V, p, dof, expected = stats.chi2_contingency(data)print(p)

1ca5c1924331f574f6a59df6ef4ee4e6.png

1781143edf11ee49ba38620178da91d9.png

d5f575959da4129106613ae816597b34.png

例子:

49db4db0de5858fe704be93d40aa96fc.png

欢迎访问讲师腾讯课堂教学主页,学习更多python金融模型实战https://ke.qq.com/teacher/231469242?tuin=dcbf0ba

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值