Person 系数

最新推荐文章于 2023-07-10 15:14:45 发布

juhanishen

最新推荐文章于 2023-07-10 15:14:45 发布

阅读量2.4k

点赞数

分类专栏：综合文章标签：概率论机器学习

原文链接：https://blog.csdn.net/ruthywei/article/details/82527400

版权

综合专栏收录该内容

26 篇文章 5 订阅

订阅专栏

Pearson 系数：

本文来自于此CSDN链接

皮尔森(pearson)相关系数:

在这三大相关系数中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。今天暂时用不到，所以现在只做pearson的相关研究。
公式定义为：两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间，接近0的变量被成为无相关性，接近1或者-1被称为具有强相关性。
根据以上公式，python3实现代码：

def pearson(vector1, vector2):
    n = len(vector1)
    #simple sums
    sum1 = sum(float(vector1[i]) for i in range(n))
    sum2 = sum(float(vector2[i]) for i in range(n))
    #sum up the squares
    sum1_pow = sum([pow(v, 2.0) for v in vector1])
    sum2_pow = sum([pow(v, 2.0) for v in vector2])
    #sum up the products
    p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
    #分子num，分母den
    num = p_sum - (sum1*sum2/n)
    den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
    if den == 0:
        return 0.0
    return num/den

现在, 用两个向量测试一下:

vector1 = [2,7,18,88,157，90,177,570]

vector2 = [3,5,15,90,180, 88,160,580]

运行结果为0.998，可见这两组数是高度正相关的。

此外，从上面的公式我们知道，皮尔森相关性系数是协方差与标准差的比值，所以它对数据是有比较高的要求的：

第一，实验数据通常假设是成对的来自于正态分布的总体。为啥通常会假设为正态分布呢？因为我们在求皮尔森相关性系数以后，通常还会用t检验之类的方法_简书, t检验之类的方法_百度百科来进行皮尔森相关性系数检验，而 t检验是基于数据呈正态分布的假设的。
第二，实验数据之间的差距不能太大，或者说皮尔森相关性系数受异常值的影响比较大。例如心跳与跑步的例子，万一这个人的心脏不太好，跑到一定速度后承受不了，突发心脏病，那这时候我们会测到一个偏离正常值的心跳（过快或者过慢，甚至为0），如果我们把这个值也放进去进行相关性分析，它的存在会大大干扰计算的结果的。

juhanishen

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Person 系数

Pearson 系数：本文来自于此CSDN链接皮尔森(pearson)相关系数: 在这三大相关系数中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。今天暂时用不到，所以现在只做pearson的相关研究。公式定义为：两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间，接近0的变量被成为无相关性，接近..
复制链接

扫一扫