python质量数据关联性分析_相关性检验之Pearson系数及python实现

本文介绍了如何使用Python计算Pearson相关系数,这是一种衡量变量间线性相关性的统计量。通过计算两个特征数组的平均值并利用余弦相似度,实现了数据的关联性分析。代码示例展示了计算过程,适用于机器学习中的特征与类别相关性评估。
摘要由CSDN通过智能技术生成

相关性检验之Pearson系数及python实现

一、Pearson相关系数

皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。

Pearson系数的取值范围为[-1,1],当值为负时,为负相关,当值为正时,为正相关,绝对值越大,则正/负相关的程度越大。若数据无重复值,且两个变量完全单调相关时,spearman相关系数为+1或-1。当两个变量独立时相关系统为0,但反之不成立

Pearson相关系数的计算方法有三种形式,如下列公式所示

ff3967ad25e84951cb6f9b54a82685d6.png

6b8b781053110ecf11a2e9ed3efaacee.png

73550856

其中X,Y代表两个特征数组, , 为X,Y特征的平均值。对于第一种形式的Pearson表示,可以看做是两个随机变量中得到的样本集向量之间夹角的cosine函数。

二、Py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值