2×3卡方检验prism_数据分析|Python假设检验

b155fc686c65b3c411d827fe1ab6de6a.png

在上篇文章中,介绍了假设检验的基本方法和原理,并在文章的最后用Excel实现了主要的假设检验,见下文:

求知鸟:数据分析|统计之参数假设检验​zhuanlan.zhihu.com
94d3b075b7f9940919b8dbd217a60750.png

这篇文章,用Python实现常用的假设检验!

dccb08dda67365b87e3cdb9238d0fbbc.png
服从什么分布,就用什么区间估计方式,也就就用什么检验!
比如:两个样本方差比服从F分布,区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验。

ce0a1b6e0287691713946e000be41435.png
看不清,私信我加V发原图

建设检验的基本步骤:

58da590f0e7cf91258d975081b57fda8.png

0X00 前言

假设检验用到的Python工具包

  • Statsmodels是Python中,用于实现统计建模和计量经济学的工具包,主要包括描述统计、统计模型估计和统计推断
  • Scipy是一个数学、科学和工程计算Python工具包,主要包括统计,优化,整合,线性代数等等与科学计算有关的包

导入数据

from 

一个总体均值的z检验

np.mean(iris['petal_legth'])
'''
原假设:鸢尾花花瓣平均长度是4.2 
备择假设:鸢尾花花瓣平均长度不是4.2

'''

import statsmodels.stats.weightstats 
z, pval = statsmodels.stats.weightstats.ztest(iris['petal_legth'], value=4.2) 
print(z,pval)


'''
P=0.002 <5%, 拒绝原假设,接受备则假设。
'''

一个总体均值的t检验

import scipy.stats
t, pval = scipy.stats.ttest_1samp(iris['petal_legth'], popmean=4.0)
print(t, pval)

'''
P=0.0959 > 5%, 接受原假设,即花瓣长度为4.0。 
'''

一个总体方差卡方检验

自编程实现卡方检验:Python 卡方检验_KK 笔记:专注数据-CSDN博客

两个总体方差比F检验

假设检验怎么做?这次把方法+Python代码一并教给你_AI科技大本营-CSDN博客

模拟双样本t检验

#取两个样本
iris_1 = iris[iris.petal_legth >= 2]
iris_2 = iris[iris.petal_legth < 2]
print(np.mean(iris_1['petal_legth']))
print(np.mean(iris_2['petal_legth']))

'''
H0: 两种鸢尾花花瓣长度一样 
H1: 两种鸢尾花花瓣长度不一样

'''

import scipy.stats
t, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth'])
print(t,pval)

'''
p<0.05,拒绝H0,认为两种鸢尾花花瓣长度不一样
'''

0X01 练习

数据字段说明:

  • gender:性别,1为男性,2为女性
  • Temperature:体温
  • HeartRate:心率
  • 共130行,3列
  • 用到的数据链接:https://pan.baidu.com/s/1t4SKF6U2yyjT365FaE692A*

本周需要解决的几个小问题:

  • 1、人体体温的总体均值是否为98.6华氏度?
  • 2、人体的温度是否服从正态分布?
  • 3、人体体温中存在的异常数据是哪些?
  • 4、男女体温是否存在明显差异?
  • 5、体温与心率间的相关性(强?弱?中等?)

1.1 探索数据

import numpy as np
import pandas as pd
from scipy import stats
data = pd.read_csv("C:UsersbaihuaDesktoptest.csv")
print(data.head())
sample_size = data.size #130*3 
out:
   Temperature  Gender  HeartRate
0         96.3       1         70
1         96.7       1         71
2         96.9       1         74
3         97.0       1         80
4         97.1       1         73

print(data.describe())
out:
 Temperature      Gender   HeartRate
count   130.000000  130.000000  130.000000
mean     98.249231    1.500000   73.761538
std       0.733183    0.501934    7.062077
min      96.300000    1.000000   57.000000
25%      97.800000    1.000000   69.000000
50%      98.300000    1.500000   74.000000
75%      98.700000    2.000000   79.000000
max     100.800000    2.000000   89.000000

人体体温均值是98.249231

1.2 人体的温度是否服从正态分布?

'''
人体的温度是否服从正态分布?
先画出分布的直方图,然后使用scipy.stat.kstest函数进行判断。

'''
%matplotlib inline
import seaborn as sns
sns.distplot(data['Temperature'], color='b', bins=10, kde=True)

de061856dfda1c4a384cebf94fc5599a.png
stats.kstest(data['Temperature'], 'norm')
out:
KstestResult(statistic=1.0, pvalue=0.0)
'''
p<0.05,不符合正态分布
'''

判断是否服从t分布

'''
判断是否服从t分布:

'''

np.random.seed(1)
ks = stats.t.fit(data['Temperature'])
df = ks[0]
loc = ks[1]
scale = ks[2]
t_estm = stats.t.rvs(df=df, loc=loc, scale=scale, size=sample_size)
stats.ks_2samp(data['Temperature'], t_estm)

'''

 pvalue=0.4321464176976891 <0.05,认为体温服从t分布
'''

判断是否服从卡方分布

'''
判断是否服从卡方分布:

'''
np.random.seed(1)
chi_square = stats.chi2.fit(data['Temperature'])
df = chi_square[0]
loc = chi_square[1]
scale = chi_square[2]
chi_estm = stats.chi2.rvs(df=df, loc=loc, scale=scale, size=sample_size)
stats.ks_2samp(data['Temperature'], chi_estm)

'''
pvalue=0.3956146564478842>0.05,认为体温服从卡方分布

'''

绘制卡方分布直方图

'''
绘制卡方分布图

'''

from matplotlib import pyplot as plt
plt.figure()
data['Temperature'].plot(kind = 'kde')
chi2_distribution = stats.chi2(chi_square[0], chi_square[1],chi_square[2])
x = np.linspace(chi2_distribution.ppf(0.01), chi2_distribution.ppf(0.99), 100)
plt.plot(x, chi2_distribution.pdf(x), c='orange')
plt.xlabel('Human temperature')
plt.title('temperature on chi_square', size=20)
plt.legend(['test_data', 'chi_square'])

e5ef8336c4ddda0622beff51ac196091.png

1.3 人体体温中存在的异常数据是哪些?

'''
已知体温数据服从卡方分布的情况下,可以直接使用Python计算出P=0.025和P=0.925时(该函数使用单侧概率值)的分布值,在分布值两侧的数据属于小概率,认为是异常值。
'''
lower1=chi2_distribution.ppf(0.025)
lower2=chi2_distribution.ppf(0.925)
t=data['Temperature']
print(t[t<lower1] )
print(t[t>lower2])

out:

0     96.3
1     96.7
65    96.4
66    96.7
67    96.8
Name: Temperature, dtype: float64
63      99.4
64      99.5
126     99.4
127     99.9
128    100.0
129    100.8
Name: Temperature, dtype: float64

1.4 男女体温差异是否显著

'''
此题是一道两个总体均值之差的假设检验问题,因为是否存在差别并不涉及方向,所以是双侧检验。建立原假设和备择假设如下:
H0:u1-u2 =0  没有显著差
H1:u1-u2 != 0  有显著差别

'''
data.groupby(['Gender']).size() #样本量65
male_df = data.loc[data['Gender'] == 1]
female_df = data.loc[data['Gender'] == 2]

'''
使用Python自带的函数,P用的双侧累计概率
'''


import scipy.stats
t, pval = scipy.stats.ttest_ind(male_df['Temperature'],female_df['Temperature'])
print(t,pval)
if pval > 0.05:
    print('不能拒绝原假设,男女体温无明显差异。')
else:
    print('拒绝原假设,男女体温存在明显差异。')

out:
-2.2854345381654984 0.02393188312240236
拒绝原假设,男女体温存在明显差异。

1.5 体温与心率间的相关性(强?弱?中等?)

'''

体温与心率间的相关性(强?弱?中等?)

'''

heartrate_s = data['HeartRate']
temperature_s = data['Temperature']
from matplotlib import pyplot as plt
plt.scatter(heartrate_s, temperature_s)

8edb557e2af8c8bcbe2b9a8e73a2abda.png
stat, p = stats.pearsonr(heartrate_s, temperature_s)
print('stat=%.3f, p=%.3f' % (stat, p))
print(stats.pearsonr(heartrate_s, temperature_s))

'''
相关系数为0.004,可以认为二者之间没有相关性

'''

参考文献

本文参考这篇文章:
【数据科学家学习小组】之统计学(第二期)第十一周(20200106-20200112)
假设检验的Python实现
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值