本文需要用到的Python库:
Pandas
Scipy.stats
Seaborn
本文纲要:
一、什么是相关性检验?
二、三种类型的相关性检验
三、例子中用到的数据
四、检验假定
五、用Pandas计算相关系数
六、用Scipy.stats计算相关系数
一、什么是相关系数?
相关性在统计中用来度量变量之间的关系,相关系数在-1到1之间:相关系数越接近-1或1,变量之间的相关关系越强;相关系数越接近0,变量之间的相关关系越弱。
每种相关检验都是用于检验已下假设:
原假设H0 :变量1和变量2不相关
备选假设H1 :变量1和变量2相关
p-值<α,则可以得出变量之间具有显著的相关性。显著性水平α可以取不同的值,多数领域取0.05。这里,我们给α取值0.05。
三种不同类型的相关关系:
- 负相关:一个变量增大,另一个变量减小
- 不相关:两个变量之间没有相关关系
- 正相关:一个变量增大,另一个变量也增大
二、三种类型的相关性检验
皮尔森相关系数(Pearson)、皮尔斯曼秩相关系数(Spearman