python 卡方分布值_python数据分析探索变量之间的关系

探索变量之间的关系

引言

深入探索分析数据价值有几个重要步骤:①变量的分布检验,②探索变量间的关系,③建立关系模型,④评估,⑤总结结论与建议。接下来看看数据分析的重要一环–「探索变量间的关系」

1 思路

探索数据变量之间是否存在某种关系/关联。大致步骤有:

  • 变量的类型:类别型/数值型;
  • 可视化给出可能的方向:散点图、箱型图、直方图、…;
  • 更严格的检验:假设检验。假设变量间存在某种函数/逻辑等关联关系,进行检验。

2 工具及数据

工具:我们用python3,jupyter notebook编辑器。先导入python数据分析常用的几个库。

import numpy as np #科学计算基础库,多维数组对象ndarray
import pandas as pd #数据处理库,DataFrame(二维数组)
import matplotlib as mpl #画图基础库
import matplotlib.pyplot as plt #最常用的绘图库
from scipy import stats #scipy库的stats模块

mpl.rcParams["font.family"]="SimHei" #使用支持的黑体中文字体
mpl.rcParams["axes.unicode_minus"]=False # 用来正常显示负号  "-"
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
# % matplotlib inline  #jupyter中用于直接嵌入图表,不用plt.show()
import warnings
warnings.filterwarnings("ignore") #用于排除警告
#用于显示使用库的版本
print("numpy_" + np.__version__)
print("pandas_" + pd.__version__)
print("matplotlib_"+ mpl.__version__)

案例数据:某餐厅顾客消费记录数据作为主要的案例数据。数据源:https://download.csdn.net/download/weixin_41685388/12144418

'''
某餐厅顾客消费记录.
解释数据结构:
  total_bill:消费,
  tip:小费,
  sex:服务员性别,
  smoker:是否抽烟,
  day:星期几,
  time:午餐/晚餐,
  size:本桌人数
'''
tips = pd.read_csv(r"E:\tips.txt",sep='\t',encoding='utf-8') 
#导入txt格式数据
print("样本量:",tips.shape)  
display(tips.sample(3))  #随机抽样3行
display(tips.describe()) #统计信息
display(tips.info()) #是否有空值
6fce7122be99adceb2641e5316663737.png

类别型与类别型数据独立性检验

卡方检验(通用)、费舍尔检验(小样本)34f1a97e700c0b13cbedaf2d96637b1c.png10a25543198584ea6df9e75720ab4215.png

通用:卡方检验

小样本:费舍尔检验(劣势:只能检验2*2) 问题1:探索案例数据中服务员性别与星期几的关系?类别型与类别型变量需要生成交叉表,用pd.crosstab()

'''①看变量的类型:类别型/数值型'''
#两个变量均是类别型数据,统计往往是进行分类汇总,
#需要生成交叉表,用pd.crosstab()
display(tips.sample(3))  #随机抽样3行
statistics = tips[["sex","day"]].describe() #统计
display(statistics)
count=pd.crosstab(tips.sex, tips.day)  
display(count)
39416b245cf80a1eede8e69e5bfbfbfa.png
'''②可视化给出可能的方向'''
count.T.plot(kind='bar')
plt.show()
08c6b3dd9f434d1ca97fdd249406b678.png
'''③假设检验:卡方检验'''
count=pd.crosstab(tips.sex, tips.day)  #构造交叉表
print(stats.chi2_contingency(count,correction=False))
#chi2 卡方检验   contingency列联表  列联表中每个格子数量至少为5
#对性别和星期几进行卡方检验
chi2,p,dof,ex = stats.chi2_contingency(count, correction=False)  
#卡方检验,p值很小,检验AB有关,拒绝原假设H0无关的说法
print(p)
#P值很小,拒绝原假设,说明性别与星期几有关系
#独立性检验中,H0:A,B无关,H1:A,B有关系
'''
输出结果:
(13.22, 0.00418, 3, array([[ 6.77, 31.02 , 27.098, 22.1065],
   [12.225, 55.979 , 48.901, 39.893]]))
0.00418
'''
小样本:费舍尔精确检验

用费舍尔检验(劣势:只能检验2*2)。问题2:探索服务员性别与顾客是否吸烟是否有关?

count=pd.crosstab(tips.sex,tips.smoker)  
display(count)
count.plot(kind='bar')
plt.show()
oddsratio,pvalue=stats.fisher_exact(count)  #费舍尔精确检验
print(oddsratio,pvalue)
#P值很大,接受原假设H0,A,B无关,即此处吸烟与男女比例无关
0b36832e5081c897ddb938e00caa38ca.png
#如果修改一下列联表中数据
# count.iat[0,0]=2  #手动将交叉表中的[0,0]位置的元素修改为2
count.iloc[0:1,0:1]=2 #手动将交叉表中的[0,0]位置的元素修改为2
print(count)
oddsratio,pvalue=stats.fisher_exact(count)  ##费舍尔精确检验
print(oddsratio,pvalue)
# 0.03748828491096532 3.9900059898475383e-10
#P值很小,拒绝H0,吸烟和男女有关系
#fisher精确检验的优势:每个表格中数据不一定大于五
#  费舍尔精确检验劣势:只能检验2*2

chi2,p,dof,ex = stats.chi2_contingency(count, correction=False)  
#卡方检验
print(p) # 1.9484526423911992e-09
#卡方检验结果:P值很小,拒绝H0,吸烟和男女有关系

数值型与数值型独立性检验

pearson、spearman和Kendall’s Tau

pearson:积差相关系数,假设变量为正态分布,反应两个变量之间的「线性相关性」5eff5256601bbc906ad9cb72532699f3.pngspearman:等级相关系数(Ranked data)—常用。先对所有变量进行排序,再做线性相关。与pearson不同,不假设变量为正态分布。d83c6034037a2cee1965cc5736d85e88.pngKendall’s Tau:非参数等级相关系数。tau=(P-Q)/sqrt((P+Q+T)*(P+Q+U))其中,P:同步数据对数,Q:异步,T:tie in x,U:tie in y

区别及选用

pearson和spearman区别:

  • 如果有线性模式,也有一些离散点,spearman线性相关系数要大一些,因为离散点破坏了线性相关性,但是对rank排序影响不大。pearson只能处理两组数据,spearman可以处理多组序列。

如何选择:

  • Kendall’s tau-b(肯德尔)等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;
  • 计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
  • 计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用 spearman或kendall相关。

总结:在大多数情况下选用spearman检验即可。

'''可视化给出可能的方向'''
plt.scatter(tips.total_bill,tips.tip)
plt.title("total_bill与tip散点图")
plt.xlabel("total_bill") 
plt.ylabel("tip") 
plt.show()
c75d92f1f18c79f2f7b4843e60c18aef.png
#pearson就是统计学中学过的相关系数
print(stats.pearsonr(tips.total_bill,tips.tip))
#线性相关度和P值
#相关系数=0.6757341092113643,p=6.692470646864041e-34
#p<0.01,拒绝原假设,存在相关性
# spearman:等级相关系数(Ranked data)
rho,pval=stats.spearmanr(tips.total_bill,tips.tip)
print(rho,pval)
#p<0.01,拒绝原假设,两变量存在相关性
#多组数据的spearmanr独立性检验
x2n=np.random.randn(100,2)
y2n=np.random.randn(100,2)
rho,pval=stats.spearmanr(x2n,y2n)
print(rho)
print(pval)
print("\n")
rho,pval=stats.spearmanr(x2n.T,y2n.T,axis=1)
print(rho)
print(pval)
b7acb6364946f0e307ecc8af70c9f794.png
#Kendall's Tau:非参数等级相关系数
x=[1, 2, 3, 4, 5, 5, 4, 6,-1]
y=[3, 4, 3, 4, 5, 5, 3, 7, 7]
'''
tau=(P-Q)/sqrt((P+Q+T)*(P+Q+U))
P:同步数据对数,Q:异步,T:tie in x,U:tie in y
x中1-2增加,y中3-4增加,即为同步P
x中2-3增加,y中4-3减少,即为异步Q
x中两个数相等,但y中不相等,即为T
y中两个数相等,但x中不相等,即为U
'''
plt.scatter(x,y)
plt.title("x与y散点图")
plt.xlabel("x") 
plt.ylabel("y") 
plt.show()

tau, p_value = stats.kendalltau(x,y)
#Kendall's Tau:非参数等级相关系数
print(tau, p_value) 
#p>0.05,接受原假设,不相关
rho,pval=stats.spearmanr(x,y) 
#用spearmanr独立性检验
print(rho,pval) 
#p>0.05,接受原假设,不相关
51a3d2e3091841e2a274609392791f97.png

数值型与类别型独立性检验

  • t检验:比较两个样本(比较两组均值);
  • Kolmogorov-Smirnov 双样本检测 ks_2samp(比较两组分布);
  • 单因素ANOVA方差分析检验;
  • ANOVA的非参数版本:Kruskal-Wallis H-test

问题3:服务员男女性别中顾客给小费是否不同?

t检验:比较两个样本(比较两组均值)
rvs1 = stats.norm.rvs(loc=5, scale=10, size=500)
rvs2 = stats.norm.rvs(loc=5, scale=10, size=500)
print(stats.ttest_ind(rvs1, rvs2))
# Ttest_indResult(statistic=-0.30, pvalue=0.76)
#p值较大,接受原假设,两个样本的均值无明显差异
rvs1=tips[tips['sex']=='Male']['tip']
print(rvs1.mean())
rvs2=tips[tips['sex']=='Female']['tip']
print(rvs2.mean())
print(stats.ttest_ind(rvs1, rvs2))  
#P值较大,不能拒绝原假设:男女性别与小费的多少无关
'''
3.0896178343949052
2.833448275862069
Ttest_indResult(statistic=1.38, pvalue=0.166)
'''
#如果同一个样本重复抽样,
# stats.ttest_rel()需要用这个检验,
# 但必须保证两组数据长度相等
print(stats.ttest_rel(rvs1[:87],rvs2))
#Ttest_relResult(statistic=1.36, pvalue=0.17)
#t检验比较的是两组数的点估计和理想值得比较
Kolmogorov-Smirnov 双样本检测 ks_2samp(比较两组分布)
rvs1=tips[tips['sex']=='Male']['tip']
rvs2=tips[tips['sex']=='Female']['tip']
print(stats.ks_2samp(rvs1, rvs2)) 
#p值较大,接受原假设,两样本的分布不存在差异

#画图检验一下,加上total_bill作为x轴,tip作为y轴
plt.title("total_bill与tip关系图")
plt.xlabel('total_bill')
plt.ylabel('tip')
plt.plot(tips[tips['sex']=='Male']['total_bill'],tips[tips['sex']=='Male']['tip'],'bo',label='Male')
plt.plot(tips[tips['sex']=='Female']['total_bill'],tips[tips['sex']=='Female']['tip'],'go',label='Female')
plt.legend(["Male","Female"],loc="best", frameon=True, title=" sex", ncol=1)
plt.show()
49dead5abbb374aafbbeb6a3e4bf1fee.png
#进一步探索,费率,在国外餐厅费率即指小费/消费
rvs1=tips[tips['sex']=='Male']['tip']/tips[tips["sex"]=='Male']['total_bill']
rvs2=tips[tips['sex']=='Female']['tip']/tips[tips["sex"]=='Female']['total_bill']

fig, (ax0, ax1) = plt.subplots(ncols=2, figsize=(10, 4))

ax0.set_title('Male')
ax0.set_xlabel("tip/total_bill")
ax0.set_ylabel("数量")
ax0.hist(rvs1, bins=50, facecolor='g', alpha=0.8)

ax1.set_title('Female')
ax1.set_xlabel("tip/total_bill")
ax1.set_ylabel("数量")
ax1.hist(rvs2, bins=50, rwidth=0.8)

#fig.tight_layout()
plt.show()

#从两个直方图上看有些分布相似,但需要进一步探索

#看一下均值和标准差
print('Male:',rvs1.mean(),rvs1.std())
print('Female:',rvs2.mean(),rvs2.std())

#t检验(均值是否有明显不同,原假设是均值基本一样无差异)
print(stats.ttest_ind(rvs1, rvs2))  
#P值较大,不能拒绝原假设:男女性别对费率的影响无差异

#正态分布检验
print(stats.normaltest(rvs1)) #结果拒绝
print(stats.normaltest(rvs2)) #结果拒绝

print(stats.ks_2samp(rvs1, rvs2)) #判断两样的分布是否存在差异
# p=0.084,可以说是接受原假设,具有相同的分布,但是正态分布检验拒绝了,所以还可以做更多的探索
# 由于p值相对较小,也可以说拒绝原假设,不具有相同的分布,p值的大小需要根据实际业务逻辑进行设定
# 最常见的p值设置是0.01,0.05,0.1三个阀值
# ANOVA方差分析、ANCOVA协方差分析、MANOVA多因素方差分析等方法做更多的探索
985592141d91b7daf544815c39135d0c.png
单因素ANOVA方差分析

原假设H0:所有组的均值相同.

方差分析检验对数据的假设条件:

  1. 样本之间相互独立
  2. 样本均来自正态分布
  3. 方差齐次性:各组方差相等

对误差平方和,因素平方和进行F检验。如果F检验为1左右,认为不能拒绝原假设. print(stats.f_oneway(rvs1,rvs2))

#接着上面构造的数据
rvs1=tips[tips['sex']=='Male']['tip']/tips[tips["sex"]=='Male']['total_bill']
rvs2=tips[tips['sex']=='Female']['tip']/tips[tips["sex"]=='Female']['total_bill']
print(stats.f_oneway(rvs1,rvs2)) 
#p=0.279710384960558,认为不能拒绝原假设,rvs1与rvs2均值相同

'''
注意:
原假设的条件,其中方差齐次性:各组方差近似相等。
如何检验方差齐次性假设?
方差齐次性:stats.fligner(rvs1,rvs2) # 原假设方差近似相等
'''
x=[1,2,3,4,5]
y=[1,2,3,4,5]
print(stats.fligner(x,y))
print('两组数的方差:',rvs1.var(),rvs2.var())
print(stats.fligner(rvs1,rvs2)) 
#在方差检验过程中我们也接受方差是齐次的,虽然方差是不相等的,但相差不大
1d1ea482905b70f487b919c9cd79dbbe.png
ANOVA的非参数版本:Kruskal-Wallis H-test

H0: 各组中值近似相等.

  1. 对数据亦有假设条件:Chi2分布,因此样本容量需不小于5.
  2. stats.kruskal(rvs1,rvs2)
  3. 相比单因素ANOVA方差分析更宽松.
rvs1=tips[tips['sex']=='Male']['tip']/tips[tips["sex"]=='Male']['total_bill']
rvs2=tips[tips['sex']=='Female']['tip']/tips[tips["sex"]=='Female']['total_bill']
print(stats.kruskal(rvs1,rvs2)) 
# KruskalResult(statistic=2.235, pvalue=0.1349)
#p值较大,接受原假设,即中位数基本相同,两组变量无明显差异,且相互独立

练习

问题:星期几对小费是否有影响?

#练习:星期几对小费是否有影响
# 类别型与数值型
display(pd.crosstab(tips.tip,tips.day).head())  #生成交叉表
Thur=tips[tips['day']=='Thur']['tip']
Fri=tips[tips['day']=='Fri']['tip']
Sat=tips[tips['day']=='Sat']['tip']
Sun=tips[tips['day']=='Sun']['tip']
print(stats.f_oneway(Thur,Fri,Sat,Sun)) #单因素ANOVA方差分析
#F_onewayResult(statistic=1.67, pvalue=0.17)

'''
方差分析检验对数据得假设:
1.样本之间相互独立
2.样本均来自正态分布
3.方差齐次性:各组方差相等
'''
print(stats.fligner(rvs1,rvs2))  #方差齐次性检验
#FlignerResult(statistic=1.618, pvalue=0.203)
#P值较大,认为方差齐次

#如果不满足以上任意一条
'''
ANOVA的非参数版本
Kruskal-Wallis H-test
H0:各组中值相等
对数据也有假设:Chi2卡方分布,因此样本容量需不小于5
给出得结果宽松一些,没有ANOVA强
'''
count=pd.crosstab(tips.tip,tips.day).head()  #构造交叉表
print(stats.chi2_contingency(count,correction=False))  
#卡方检验,p值较大,各类别变量间相互独立

print(stats.kruskal(rvs2,rvs1))  
#ANOVA的非参数版本检验
#KruskalResult(statistic=0.76, pvalue=0.38)
609dae60ebb685d9036a4e912ed70ad6.png
4b78988841f8e1c184a444c19d8e261b.gif

9164a1cb28a63fff7be2758684795ea0.png

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值