相似度计算方法(一) 皮尔森相关系数

皮尔森(pearson)相关系数

 

1. 相关系数:

考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

(1)、当相关系数为0时,X和Y两变量无关系。

(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

 

通常情况下通过以下取值范围判断变量的相关强度:

相关系数     0.8-1.0     极强相关

                 0.6-0.8     强相关

                 0.4-0.6     中等程度相关

                 0.2-0.4     弱相关

                 0.0-0.2     极弱相关或无相关

 

 2. 皮尔森(pearson)相关系数

 

    首先放上公式:

公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

 

3. 根据以上公式,python3实现代码:

def pearson(vector1, vector2):

    n = len(vector1)

    #simple sums

    sum1 = sum(float(vector1[i]) for i in range(n))

    sum2 = sum(float(vector2[i]) for i in range(n))

    #sum up the squares

    sum1_pow = sum([pow(v, 2.0) for v in vector1])

    sum2_pow = sum([pow(v, 2.0) for v in vector2])

    #sum up the products

    p_sum = sum([vector1[i]*vector2[i] for i in range(n)])

    #分子num,分母den

    num = p_sum - (sum1*sum2/n)

    den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))

    if den == 0:

        return 0.0

    return num/den

 

现在,用两个向量测试一下:

vector1 = [2,7,18,88,157,90,177,570]

vector2 = [3,5,15,90,180, 88,160,580]

运行结果为0.998,可见这两组数是高度正相关的。

  • 9
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

潘永青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值