特征相关性

为什么特征相关性非常的重要?

器学习模型的好坏取决于你所拥有的数据。这就是为什么数据科学家可以花费数小时对数据进行预处理和清理。他们只选择对结果模型的质量贡献最大的特征。这个过程称为 “特征选择”。特征选择是选择能够使预测变量更加准确的属性,或者剔除那些不相关的、会降低模型精度和质量的属性的过程。

数据与特征相关被认为是数据预处理中特征选择阶段的一个重要步骤,尤其是当特征的数据类型是连续的。那么,什么是数据相关性呢?
数据相关性:是一种理解数据集中多个变量和属性之间关系的方法。使用相关性,你可以得到一些见解,如:

一个或多个属性依赖于另一个属性或是另一个属性的原因。
一个或多个属性与其他属性相关联。

那么,相关性为什么有用?

相关性可以帮助从一个属性预测另一个(伟大的方式,填补缺失值)。 相关性(有时)可以表示因果关系的存在。

相关性被用作许多建模技术的基本量,让我们更仔细地看看这意味着什么,以及相关性是如何有用的。相关性有三种类型:

正相关:表示如果feature A增加,feature B也增加;如果feature A减少,feature B也减少。这两个特征是同步的,它们之间存在线性关系。
负相关:表示如果feature A增加,feature B减少,反之亦然。
无相关性:这两个属性之间没有关系。

这些相关类型中的每一种都存在于由0到1的值表示的频谱中,其中微弱或高度正相关的特征可以是0.5或0.7。如果存在强而完全的正相关,则用0.9或1的相关分值表示结果。如果存在很强的负相关关系,则表示为-1。

如果你的数据集具有完全正或负的属性,那么模型的性能很可能会受到一个称为“多重共线性”的问题的影响。 多重共线性发生在多元回归模型中的一个预测变量可以由其他预测变量线性预测,且预测精度较高。这可能导致歪曲或误导的结果。幸运的是,决策树和提升树算法天生不受多重共线性的影响。当它们决定分裂时,树只会选择一个完全相关的特征。然而,其他算法,如逻辑回归或线性回归,也不能避免这个问题,你应该在训练模型之前修复它。

如何处理这个问题?

有多种方法来处理这个问题。最简单的方法是删除完全相关的特性。另一种方法是使用降维算法,比如PCA。
Spearman VS Pearson相关矩阵:
Spearman和Pearson是计算两个变量或属性之间相关性强弱的两种统计方法。 Pearson相关系数可用于线性关系的连续变量。举个例子:
要打印Pearson系数评分,只需运行 pearsonr(X,Y),结果为: (0.88763627518577326,5.1347242986713319e-05),其中第一个值为Pearson相关系数,第二个值为p值。0.8表示变量呈高度正相关。

如果变量之间存在非线性关系,则可以使用 Spearman 相关系数来度量相关性。也可以与ordinal categorical variables一起使用。可以通过运行 scipy.stats.spearmanr(X,Y)来获得Spearman系数得分。
还有一种很流行的方法叫做Kendall’s Tau系数,它也是基于可变等级的,但与Spearman系数不同,它没有考虑等级之间的差异。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值