目录
“工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。
相关性分析
顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:
从随机变量之间的关系角度
- 线性相关(Pearson Spearman Rank Kendall Rank)
- 非线性相关
从随机变量自身的分布类型角度
连续变量与连续变量(Pearson Spearman Rank Kendall Rank)
连续变量与分类变量(Spearman Rank Kendall Rank)
相关性检验
Pearson(皮尔逊相关系数)
皮尔逊相关系数适用于:
- 两个变量之间是线性关系,都是连续数据;
- 两个变量的总体是正态分布,或接近正态的单峰分布;
- 两个变量的观测值是成对的,每对观测值之间相互独立。
随机变量、的皮尔逊相关系数计算公式如下:
Cov(X,Y) C o v ( X , Y ) 为随机变量 X X 、的协方差, (σX,σY) ( σ X , σ Y ) 分别表示随机变量 X X 、的标准差, ρX,Y∈[0,1] ρ X , Y ∈ [ 0 , 1 ] ,越大代表随机相关性越强。
Spearman(秩相关系数)
Spearman秩相关系数适用于:
- 随机变量是成对的有序分类变量;
- 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。
随机变量 X X 、的Spearman秩相关系数 ρS ρ S 计算如下,对原始随机变量 xi x i 、 yi y i 降序排序,记 dxi d i x 、 dyi d i y 为原始 xi x i 、 yi y i 在排序后列表中的位置, dxi d i x 、 dyi d i y 称为 xi x i 、 yi y i 的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在 X X (极为)或相持在变量 Y Y 上(记为),秩次差 di=dxi−dyi d i = d i x − d i y 。Spearman秩相关系数为:
- 没有相持等级
ρS=1−6∑d2in(n2−1) ρ S = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) - 有相持等级
ρS=∑x2+∑y2−∑d2i2∑x2∑y2‾‾‾‾‾‾‾‾‾‾√,∑x2=N3−N12−∑Tx,∑y2=N3−N12−∑Ty ρ S = ∑ x 2 + ∑ y 2 − ∑ d i 2 2 ∑ x 2 ∑ y 2 , ∑ x 2 = N 3 − N 12 − ∑ T x , ∑ y 2 = N 3 − N 12 − ∑ T y
举个例子:
xi x i | yi y i | dxi d i x | dyi d i y | di d i |
---|---|---|---|---|
4 | 7 | 5 | 6 | 1 |
44 | 67 | 1 | 1 | 0 |
15 | 9 | 4 | 5 | 1 |
23 | 54 | 2 | 2 | 0 |
18 | 21 | 3 | 4 | 1 |
2 | 33 | 6 | 3 | -3 |
对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571
Kendall Rank(肯德尔相关系数)
肯德尔相关系数适用于:
- 随机变量是成对的有序分类变量
- 不论数据分布,数据呈单调关系,可以度量随机变量的非线性关系。
肯德尔系数的定义: n n 个同类的统计对象按特定属性排序,其他属性通常是乱序的。为和谐对(变量大小顺序相同的样本观测值)的个数、 Q Q 为不和谐对(变量大小顺序相同的样本观测值), n n 为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在(记为 Tx T x )或相持在变量上 Y Y (记为 ),因此公式可以表示为:
- 没有相持等级
- 有相持等级
Kappa一致性系数
Kappa一致性系数适用于:
- 随机变量是成对的分类变量
随机变量 X X 、的 Kappa K a p p a 一致性系数 K K 计算公式如下:
N
N
为随机变量容量,为一致预测,
nij
n
i
j
为细格预测数,也可以表示为:
举例:
预测\实际 | A A | C C | |
---|---|---|---|
239 | 21 | 16 | |
B B | 16 | 73 | 4 |
6 | 9 | 280 |
p0=239+73+280664=0.8916,pc=261∗276+103∗93+300∗295664∗664=0.3883,K=0.8916−0.38831−0.3883 p 0 = 239 + 73 + 280 664 = 0.8916 , p c = 261 ∗ 276 + 103 ∗ 93 + 300 ∗ 295 664 ∗ 664 = 0.3883 , K = 0.8916 − 0.3883 1 − 0.3883
卡方检验
卡方检验适用于:
- 随机变量是成对的分类变量;
- 最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。
卡方检验是以 χ2 χ 2 分布为基础的一种常用假设检验方法,它的无效假设 H0 H 0 是:两个分类变量之间无关。
χ2=∑ki=1(Ai−npi)2npi χ 2 = ∑ i = 1 k ( A i − n p i ) 2 n p i , A_i为水平 i i 的观察频数,为总频数, pi p i 为水平 i i 的期望频率。为单元格数。当 n n 比较大时,统计量近似服从个自由度 k−1 k − 1 的卡方分布。
举例:
组别 | 有效 | 无效 | 合计 |
---|---|---|---|
男 | 14(13.6) | 20(21.9) | 34 |
女 | 16(16.4) | 25(24.6) | 41 |
合计 | 30 | 45 | 75 |
第1行1列: 34×30/75=13.6
第1行2列: 34×45/75=21.9
第2行1列: 41×30/75=16.4
第2行2列: 41×45/75=24.6
χ2=(14−13.6)213.6+(20−21.9)221.9+(16−16.4)216.4+(25−24.6)224.6=0.1929 χ 2 = ( 14 − 13.6 ) 2 13.6 + ( 20 − 21.9 ) 2 21.9 + ( 16 − 16.4 ) 2 16.4 + ( 25 − 24.6 ) 2 24.6 = 0.1929
不能拒绝原假设,认为随机变量不相关。
Fisher精确检验
- 在卡方检验的基础上,如果样本量不足40,或者最小理论频数小于5;
- 如果卡方检验的p值在0.05左右,使用Fisher精确检验。
假设二分类变量,如下,值计算如下:
性别 | 男 | 女 | 合计 |
---|---|---|---|
有效 | a | b | a+b |
无效 | c | d | c+d |
合计 | a+c | b+d | a+b+c+d |
p=Caa+bCcc+dCa+cn=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n! p = C a + b a C c + d c C n a + c = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n !
Cochran-Mantel-Haenszel(简称CMH检验)
- 与两组资料分析类似,如果数据为定量资料呈正态分布,则采用单因素方差分析(One way ANOVA);如果定量数据,呈非正态分布,则选择Kruskal一Wallis检验(Kruskal一Wallis Test)。
- 对于分类数据,多分类无序数据采用卡方检验(Chi-Square Test)或Fish’s精确概率法;多分类有序数据可采用Cochran-Mantel-Haenszel 检验(Cochran-Mantel-Haenszel Test)。