python统计分析-卡方分析和方差分析
卡方检验
- 卡方检验主要是检验两个分类变量之间的关系,主要检验是否相关,不能表示强弱。 两个分类变量,其中有一个必须是二分类,不能都是多分类。
下面代码实践,使用的是泰坦尼克号人员信息的数据。分析船舱等级与存活是否存在关系:titanic.csv数据下载
import pandas as pd
from scipy import stats
titanic = pd.read_csv('titanic.csv')
print(titanic.head(10))
table1 = pd.crosstab(titanic['pclass'],titanic['survived'],margins=False)#交叉表,用于统计两个变量之间的数据个数。
result = stats.chi2_contingency(table1)#卡方检验函数
print(result)
#不同等级舱与是否存活是由显著差异的
看一下结果:
(103.54712429415649, 3.273615369619628e-23, 2, array([[133.09090909, 82.90909091],
[113.37373737, 70.62626263],
[302.53535354, 188.46464646]]))
这里咱们只看第二个值,这个值为pvalue,为 3.273615369619628e-23