说到相关分析,很多人会马上拿出皮尔逊Pearson相关系数,从不论数据是不是符合适用条件,甚至完全不了解Pearson相关系数还有假设条件这回事。
常见的相关系数有三种,它们分别是Pearson、Spearman、Kendall系数,世人兼知pearson系数,冷淡了另外两个。
非常重要的一个知识点是:Pearson系数不是万能的,不满足适用条件时我们需要使用另外两个。
三大相关系数如何选用呢,小兵给大家作个小结。
一、变量类型
考察两个变量的相关关系,首先得看清楚两个变量都是什么类型的。统计分析中常见的变量类型有连续型数值变量,无序分类变量、有序分类变量。
连续型数值变量:如销售额、气温、工资收入、考试成绩;
无序分类变量:如性别男和女,血型种类;
有序分类变量:如学历水平小学、初中、高中、大学、研究生;
二、两个连续数值变量相关关系
X1和X2都是连续型数值变量,比如考察某班学生体重和肺活量之间的关系&#x