斯皮尔曼、皮尔逊、肯德尔、点双列相关分析、偏相关分析、距离相关分析、双变量回归分析和互信息。
特性 | 斯皮尔曼相关分析(Spearman Correlation) | 皮尔逊相关分析(Pearson Correlation) | 肯德尔相关分析(Kendall’s Tau) | 点双列相关分析(Point-Biserial Correlation) | 偏相关分析(Partial Correlation) | 距离相关分析(Distance Correlation) | 双变量回归分析(Bi-variate Regression Analysis) | 互信息(Mutual Information) |
---|---|---|---|---|---|---|---|---|
定义 | 基于变量排名的相关系数,衡量两个变量的单调关系。 | 衡量两个变量之间的线性关系。 | 基于秩的非参数相关性测度,衡量两个变量之间的一致性。 | 适用于一个变量是二元分类变量,另一个是连续变量的情况。 | 在控制其他变量的影响后,衡量两变量之间的相关性。 | 衡量任意类型数据之间关系的统计方法,能够检测线性和非线性关系。 | 评估两个变量之间的关系,通常用于预测变量和响应变量之间的关系。 | 衡量两个随机变量之间的信息量,反映变量之间的任意依赖关系。 |
适用数据类型 | 非正态分布的数据,或存在非线性关系的数据。 | 正态分布数据,或存在线性关系的数据。 | 非正态分布的数据,尤其适用于样本量较小且存在平局的数据。 | 一个二元分类变量和一个连续变量的数据。 | 控制一个或多个其他变量时测量两变量之间关系的数据。 | 适用于线性和非线性关系的数据。 | 连续性数据,特别是需要评估因变量随自变量变化趋势时。 | 各种类型的数据,尤其是高维或非线性关系的数据。 |
处理异常值的能力 | 对异常值不敏感,异常值影响较小。 | 对异常值敏感,异常值可能会显著影响相关系数。 | 对异常值不敏感,比斯皮尔曼相关系数更稳健。 | 与皮尔逊相关系数类似,对异常值较敏感。 | 对异常值的敏感度取决于所用的方法,通常需要先对异常值进行处理。 | 对异常值相对不敏感。 | 对异常值敏感,通常需要事先进行数据清理。 | 对异常值敏感,需要预处理数据。 |
计算方法 | 根据数据的秩(rank)计算。 | 使用变量的均值和标准差计算。 | 通过计算数据对中一致和不一致的比例,使用公式: τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty)(C−D) | 基于皮尔逊相关系数的公式,适用于二元分类数据。 | 通过回归分析去除控制变量的影响后,计算残差之间的相关性。 | 基于变量之间的欧氏距离,计算标准化的距离矩阵,并使用这些矩阵计算相关性。 | 通过线性回归模型拟合数据,分析回归系数的显著性。 | 基于信息论,计算变量之间的熵和条件熵,得到互信息量。 |
公式 | r s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} rs=1−n(n2−1)6∑di2 | r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ) | τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty)(C−D) | 类似于皮尔逊相关系数的计算方法,适用于一个二元分类变量。 | 没有固定公式,依赖于使用的回归模型和控制变量。 | 通过计算距离矩阵来衡量变量之间的依赖关系。 | 线性回归模型: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ | I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = H(X) + H(Y) - H(X, Y) I(X;Y)=H(X)+H(Y)−H(X,Y) |
相关系数值范围 | -1 到 1 | -1 到 1 | -1 到 1 | -1 到 1 | -1 到 1 | 0 到 1 | -∞ 到 +∞ | 0 到 ∞ |
适用场景 | - 数据非正态分布 - 数据中有异常值 - 两变量可能有非线性关系 | - 数据接近正态分布 - 两变量存在线性关系 | - 数据非正态分布 - 数据样本较小 - 存在平局情况 | - 一个变量是二元分类变量 - 另一个变量是连续变量 | - 需要控制其他变量的影响 - 分析剩余两个变量的相关性 | - 数据可能存在复杂的依赖关系 - 适用于高维数据 | - 需要评估变量之间的因果关系 - 预测和建模应用 | - 适用于所有数据类型 - 适合高维和非线性关系的数据 |
分析结果解释 | 判断两个变量之间的单调增加或减少关系(不需要是线性)。 | 判断两个变量之间的线性增加或减少关系。 | 判断两个变量之间的一致性关系,适用于样本较小的数据集。 | 判断一个二元分类变量与一个连续变量之间的线性关系。 | 判断在去除其他变量影响后,两变量之间的独立相关性。 | 衡量变量之间的距离依赖关系,可以检测出线性和非线性关系。 | 判断自变量与因变量之间的线性关系,并估计变化趋势。 | 衡量变量之间的所有类型依赖关系,包括非线性和高维关系。 |
输出结果 | 秩相关系数(Spearman’s rho),介于-1到1之间。 | 线性相关系数(Pearson’s r),介于-1到1之间。 | 肯德尔秩相关系数(Kendall’s Tau),介于-1到1之间。 | 点双列相关系数(Point-Biserial r),介于-1到1之间。 | 偏相关系数,介于-1到1之间。 | 距离相关系数,值范围0到1。 | 回归系数,表示自变量对因变量的影响程度。 | 互信息量,非负值,表示两个变量之间的依赖关系的强度。 |
总结
选择相关性分析方法取决于数据的类型、分布特征、样本大小以及分析目标:
- 数据为非正态分布或包含异常值时:考虑使用斯皮尔曼、肯德尔或距离相关分析。
- 一个变量为二元分类,另一个为连续变量时:使用点双列相关分析。
- 需要控制其他变量的影响时:使用偏相关分析。
- 数据为高维或非线性关系时:使用互信息或距离相关分析。