皮尔逊相关系数评价算法(集体智慧编程)

皮尔逊相关系数是比欧几里德距离更加复杂的可以判断人们兴趣的相似度的一种方法。该相关系数是判断两组数据与某一直线拟合程序的一种试题。它在数据不是很规范的时候,会倾向于给出更好的结果。

 


如图,Mick Lasalle为<<Superman>>评了3分,而Gene Seyour则评了5分,所以该影片被定位中图中的(3,5)处。在图中还可以看到一条直线。其绘制原则是尽可能地靠近图上的所有坐标点,被称为最佳拟合线。如果两位评论者对所有影片的评分情况都相同,那么这条直线将成为对角线,并且会与图上所有的坐标点都相交,从而得到一个结果为1的理想相关度评价。

 

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:

公式一:

 

皮尔逊相关系数计算公式

公式二:

 

皮尔逊相关系数计算公式

公式三:

 

皮尔逊相关系数计算公式

公式四:

 

皮尔逊相关系数计算公式

 

以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。

 

皮尔逊相关度评价算法首先会找出两位评论者都曾评论过的物品,然后计算两者的评分总和与平方和,并求得评分的乘积之各。利用上面的公式四计算出皮尔逊相关系数。

 

Python代码   收藏代码
  1. critics = {'Lisa Rose': {'Lady in the Water'2.5'Snakes on a Plane'3.5,  
  2.                          'Just My Luck'3.0'Superman Returns'3.5'You, Me and Dupree'2.5,  
  3.                          'The Night Listener'3.0},  
  4.            'Gene Seymour': {'Lady in the Water'3.0'Snakes on a Plane'3.5,  
  5.                             'Just My Luck'1.5'Superman Returns'5.0'The Night Listener'3.0,  
  6.                             'You, Me and Dupree'3.5},  
  7.            'Michael Phillips': {'Lady in the Water'2.5'Snakes on a Plane'3.0,  
  8.                                 'Superman Returns'3.5'The Night Listener'4.0},  
  9.            'Claudia Puig': {'Snakes on a Plane'3.5'Just My Luck'3.0,  
  10.                             'The Night Listener'4.5'Superman Returns'4.0,  
  11.                             'You, Me and Dupree'2.5},  
  12.            'Mick LaSalle': {'Lady in the Water'3.0'Snakes on a Plane'4.0,  
  13.                             'Just My Luck'2.0'Superman Returns'3.0'The Night Listener'3.0,  
  14.                             'You, Me and Dupree'2.0},  
  15.            'Jack Matthews': {'Lady in the Water'3.0'Snakes on a Plane'4.0,  
  16.                              'The Night Listener'3.0'Superman Returns'5.0'You, Me and Dupree'3.5},  
  17.            'Toby': {'Snakes on a Plane'4.5'You, Me and Dupree'1.0'Superman Returns'4.0}}  
  18.   
  19.   
  20. from math import sqrt  
  21.   
  22. def sim_pearson(prefs, p1, p2):  
  23.     # Get the list of mutually rated items  
  24.     si = {}  
  25.     for item in prefs[p1]:  
  26.         if item in prefs[p2]:  
  27.             si[item] = 1  
  28.   
  29.     # if they are no ratings in common, return 0  
  30.     if len(si) == 0:  
  31.         return 0  
  32.   
  33.     # Sum calculations  
  34.     n = len(si)  
  35.   
  36.     # Sums of all the preferences  
  37.     sum1 = sum([prefs[p1][it] for it in si])  
  38.     sum2 = sum([prefs[p2][it] for it in si])  
  39.   
  40.     # Sums of the squares  
  41.     sum1Sq = sum([pow(prefs[p1][it], 2for it in si])  
  42.     sum2Sq = sum([pow(prefs[p2][it], 2for it in si])  
  43.   
  44.     # Sum of the products  
  45.     pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])  
  46.   
  47.     # Calculate r (Pearson score)  
  48.     num = pSum - (sum1 * sum2 / n)  
  49.     den = sqrt((sum1Sq - pow(sum1, 2) / n) * (sum2Sq - pow(sum2, 2) / n))  
  50.     if den == 0:  
  51.         return 0  
  52.   
  53.     r = num / den  
  54.   
  55.     return r  
  56.   
  57. print(sim_pearson(critics,'Lisa Rose','Gene Seymour'))  
  58. 0.396059017191  

 

注:还有许多方法可以衡量两组数据间的相似程度,使用哪一种方法最优,完全取决于具体的应用。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值