皮尔逊相关系数Pearson Correlation Coefficient

皮尔逊相关系数是衡量变量间线性相关性的指标,它不受变量取值范围影响,常用于高维数据。与欧氏距离和余弦相似度相比,它在处理量纲不同的数据时更具优势。当需要考虑变量趋势和去除量纲影响时,Pearson系数是理想选择。同时,标准化是数据预处理的重要步骤,确保不同维度的比较公平性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pearson相关性系数可以看出是升级版的欧氏距离平方,因为它提供了对于变量取值范围不同的处理步骤。因此对不同变量间的取值范围没有要求(unit free),最后得到的相关性所衡量的是趋势,而不同变量量纲上差别在计算过程中去掉了,等价于z-score标准化。

而未经升级的欧式距离以及cosine相似度,对变量的取值范围是敏感的,在使用前需要进行适当的处理。在低维度可以优先使用标准化后的欧式距离或者其他距离度量,在高维度时Pearson相关系数更加适合。

欧氏距离(Euclidean Distance)是常见的相似性度量方法,可求两个向量间的距离,取值范围为0至正无穷。显然,如果两个向量间的距离较小,那么向量也肯定更为相似。此处需要注意的一点是,欧氏距离计算默认对于每一个维度给予相同的权重,因此如果不同维度的取值范围差别很大,那么结果很容易被某个维度所决定。解决方法除了对数据进行处理以外,还可以使用加权欧氏距离,不同维度使用不同的权重。

公式1:
在这里插入图片描述
Pearson相关性系数(Pearson Correlation)是衡量向量相似度的一种方法。输出范围为-1到+1, 0代表无相关性,负值为负相关,正值为正相关。

公式2:
在这里插入图片描述

Cosine相似度也是一种相似性度量,输出范围和P

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值