相关性分析

斯皮尔曼、皮尔逊、肯德尔、点双列相关分析、偏相关分析、距离相关分析、双变量回归分析和互信息。

特性斯皮尔曼相关分析(Spearman Correlation)皮尔逊相关分析(Pearson Correlation)肯德尔相关分析(Kendall’s Tau)点双列相关分析(Point-Biserial Correlation)偏相关分析(Partial Correlation)距离相关分析(Distance Correlation)双变量回归分析(Bi-variate Regression Analysis)互信息(Mutual Information)
定义基于变量排名的相关系数,衡量两个变量的单调关系衡量两个变量之间的线性关系基于秩的非参数相关性测度,衡量两个变量之间的一致性。适用于一个变量是二元分类变量,另一个是连续变量的情况。在控制其他变量的影响后,衡量两变量之间的相关性。衡量任意类型数据之间关系的统计方法,能够检测线性和非线性关系。评估两个变量之间的关系,通常用于预测变量和响应变量之间的关系。衡量两个随机变量之间的信息量,反映变量之间的任意依赖关系。
适用数据类型非正态分布的数据,或存在非线性关系的数据。正态分布数据,或存在线性关系的数据。非正态分布的数据,尤其适用于样本量较小且存在平局的数据。一个二元分类变量和一个连续变量的数据。控制一个或多个其他变量时测量两变量之间关系的数据。适用于线性和非线性关系的数据。连续性数据,特别是需要评估因变量随自变量变化趋势时。各种类型的数据,尤其是高维或非线性关系的数据。
处理异常值的能力对异常值不敏感,异常值影响较小。对异常值敏感,异常值可能会显著影响相关系数。对异常值不敏感,比斯皮尔曼相关系数更稳健。与皮尔逊相关系数类似,对异常值较敏感。对异常值的敏感度取决于所用的方法,通常需要先对异常值进行处理。对异常值相对不敏感。对异常值敏感,通常需要事先进行数据清理。对异常值敏感,需要预处理数据。
计算方法根据数据的秩(rank)计算。使用变量的均值和标准差计算。通过计算数据对中一致和不一致的比例,使用公式: τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty) (CD)基于皮尔逊相关系数的公式,适用于二元分类数据。通过回归分析去除控制变量的影响后,计算残差之间的相关性。基于变量之间的欧氏距离,计算标准化的距离矩阵,并使用这些矩阵计算相关性。通过线性回归模型拟合数据,分析回归系数的显著性。基于信息论,计算变量之间的熵和条件熵,得到互信息量。
公式 r s = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} rs=1n(n21)6di2 r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} r=(xixˉ)2(yiyˉ)2 (xixˉ)(yiyˉ) τ = ( C − D ) ( C + D + T x ) ( C + D + T y ) \tau = \frac{(C - D)}{\sqrt{(C + D + T_x)(C + D + T_y)}} τ=(C+D+Tx)(C+D+Ty) (CD)类似于皮尔逊相关系数的计算方法,适用于一个二元分类变量。没有固定公式,依赖于使用的回归模型和控制变量。通过计算距离矩阵来衡量变量之间的依赖关系。线性回归模型: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X; Y) = H(X) + H(Y) - H(X, Y) I(X;Y)=H(X)+H(Y)H(X,Y)
相关系数值范围-1 到 1-1 到 1-1 到 1-1 到 1-1 到 10 到 1-∞ 到 +∞0 到 ∞
适用场景- 数据非正态分布
- 数据中有异常值
- 两变量可能有非线性关系
- 数据接近正态分布
- 两变量存在线性关系
- 数据非正态分布
- 数据样本较小
- 存在平局情况
- 一个变量是二元分类变量
- 另一个变量是连续变量
- 需要控制其他变量的影响
- 分析剩余两个变量的相关性
- 数据可能存在复杂的依赖关系
- 适用于高维数据
- 需要评估变量之间的因果关系
- 预测和建模应用
- 适用于所有数据类型
- 适合高维和非线性关系的数据
分析结果解释判断两个变量之间的单调增加或减少关系(不需要是线性)。判断两个变量之间的线性增加或减少关系。判断两个变量之间的一致性关系,适用于样本较小的数据集。判断一个二元分类变量与一个连续变量之间的线性关系。判断在去除其他变量影响后,两变量之间的独立相关性。衡量变量之间的距离依赖关系,可以检测出线性和非线性关系。判断自变量与因变量之间的线性关系,并估计变化趋势。衡量变量之间的所有类型依赖关系,包括非线性和高维关系。
输出结果秩相关系数(Spearman’s rho),介于-1到1之间。线性相关系数(Pearson’s r),介于-1到1之间。肯德尔秩相关系数(Kendall’s Tau),介于-1到1之间。点双列相关系数(Point-Biserial r),介于-1到1之间。偏相关系数,介于-1到1之间。距离相关系数,值范围0到1。回归系数,表示自变量对因变量的影响程度。互信息量,非负值,表示两个变量之间的依赖关系的强度。

总结

选择相关性分析方法取决于数据的类型、分布特征、样本大小以及分析目标:

  • 数据为非正态分布或包含异常值时:考虑使用斯皮尔曼、肯德尔或距离相关分析。
  • 一个变量为二元分类,另一个为连续变量时:使用点双列相关分析。
  • 需要控制其他变量的影响时:使用偏相关分析。
  • 数据为高维或非线性关系时:使用互信息或距离相关分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BenChuat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值