协同过滤算法实战

转载于ACdreamers,谢谢,仅供参考。

 

Contents

 

   1. 协同过滤的简介

   2. 协同过滤的核心

   3. 协同过滤的实现

   4. 协同过滤的应用

 

 

1. 协同过滤的简介

 

   关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那

   么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不

   多的朋友,这就是协同过滤的核心思想。

 

   协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他

   们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题

 

   (1)如何确定一个用户是否与你有相似的品味?

   (2)如何将邻居们的喜好组织成一个排序目录?

 

   协同过滤算法的出现标志着推荐系统的产生,协同过滤算法包括基于用户和基于物品的协同过滤算法。

 

   

2. 协同过滤的核心

 

   要实现协同过滤,需要进行如下几个步骤

 

   (1)收集用户偏好

   (2)找到相似的用户或者物品

   (3)计算并推荐

 

 

   收集用户偏好

 

   从用户的行为和偏好中发现规律,并基于此进行推荐,所以如何收集用户的偏好信息成为系统推荐效果最基础

   的决定因素。用户有很多种方式向系统提供自己的偏好信息,比如:评分,投票,转发,保存书签,购买,点

   击流,页面停留时间等等。

 

   以上的用户行为都是通用的,在实际推荐引擎设计中可以自己多添加一些特定的用户行为,并用它们表示用户

   对物品的喜好程度。通常情况下,在一个推荐系统中,用户行为都会多于一种,那么如何组合这些不同的用户

   行为呢 ?基本上有如下两种方式

 

   (1)将不同的行为分组

 

    一般可以分为查看和购买,然后基于不同的用户行为,计算不同用户或者物品的相似度。类似与当当网或者

    亚马逊给出的“购买了该书的人还购买了”,“查看了该书的人还查看了”等等。

 

   (2)不同行为产生的用户喜好对它们进行加权

 

    对不同行为产生的用户喜好进行加权,然后求出用户对物品的总体喜好。

 

    好了,当我们收集好用户的行为数据后,还要对数据进行预处理,最核心的工作就是减噪归一化

 

    减噪:  因为用户数据在使用过程中可能存在大量噪音和误操作,所以需要过滤掉这些噪音。

    归一化:不同行为数据的取值相差可能很好,例如用户的查看数据肯定比购买数据大得多。通过归一化,才能

           使数据更加准确。

 

    通过上述步骤的处理,就得到了一张二维表,其中一维是用户列表,另一维是商品列表,值是用户对商品的喜

    好。还是以电影推荐为例,如下表

 

        

 

   

    找到相似的用户或物品

 

    对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物

    品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。

 

    关于相似度的计算有很多种方法,比如常用的余弦夹角,欧几里德距离度量,皮尔逊相关系数等等。而如果采

    用欧几里德度量,那么可以用如下公式来表示相似度

 

          

 

    在计算用户之间的相似度时,是将一个用户对所有物品的偏好作为一个向量,而在计算物品之间的相似度时,

    是将所有用户对某个物品的偏好作为一个向量。求出相似度后,接下来可以求相似邻居了。

 

   

    计算并推荐

 

    在上面,我们求出了相邻用户和相邻物品,接下来就应该进行推荐了。当然从这一步开始,分为两方面,分别

    是基于用户的协同过滤和基于物品的协同过滤。我会分别介绍它们的原理

 

    (1)基于用户的协同过滤算法

 

        在上面求相似邻居的时候,通常是求出TOP K邻居,然后根据邻居的相似度权重以及它们对物品的偏好,

        预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表进行推荐。

 

    (2)基于物品的协同过滤算法

 

        跟上述的基于用户的协同过滤算法类似,但它从物品本身,而不是用户角度。比如喜欢物品A的用户都喜

        欢物品C,那么可以知道物品A与物品C的相似度很高,而用户C喜欢物品A,那么可以推断出用户C也可能

        喜欢物品C。如下图

 

        

 

     上面的相似度权重有时候需要加入惩罚因子,举个例子,在日常生活中,我们每个人购买卫生纸的的频率比

     较高,但是不能说明这些用户的兴趣点相似,但是如果它们都买了照相机,那么就可以大致推出它们都是摄

     影爱好者。所以像卫生纸这样的物品在计算时,相似度权重需要加上惩罚因子或者干脆直接去掉这类数据。

 

 

     适用场景

 

     对于一个在线网站,用户的数量往往超过物品的数量,同时物品数据相对稳定,因此计算物品的相似度不但

     计算量小,同时不必频繁更新。但是这种情况只适用于电子商务类型的网站,像新闻类,博客等这类网站的

     系统推荐,情况往往是相反的,物品数量是海量的,而且频繁更新。所以从算法复杂度角度来说,两种算法

     各有优势。关于协同过滤的文章,可以参考这里:http://www.tuicool.com/articles/6vqyYfR

 

 

 

3. 协同过滤的实现

 

   上面已经介绍了协同过滤的核心思想,现在就来实战一下吧! 采用数据集如下

 

   链接:http://grouplens.org/datasets/movielens/

 

   这个数据集是很多用户对各种电影的评分。接下来先采用Python实现基于用户的协同过滤算法。

 

   首先,我们需要以表格形式读取数据,需要用到Texttable第三方包。安装包如下链接

 

   链接:https://pypi.python.org/pypi/texttable/

 

   大致用法如下

 

   

 

   更多方法的使用需要参考Textdtable的源文件texttable.py。接下来可以实现协同过滤算法了。

 

   代码:

[python]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. # -*-coding=utf-8 -*-  
  2.   
  3. import sys  
  4. import math  
  5. from texttable import Texttable  
  6.   
  7. #计算余弦距离  
  8. def getCosDist(user1, user2):  
  9.     sum_x = 0.0  
  10.     sum_y = 0.0  
  11.     sum_xy = 0.0  
  12.     for key1 in user1:  
  13.         for key2 in user2:  
  14.             if key1[0] == key2[0]:  
  15.                 sum_x += key1[1] * key1[1]  
  16.                 sum_y += key2[1] * key2[1]  
  17.                 sum_xy += key1[1] * key2[1]  
  18.     if sum_xy == 0.0:  
  19.         return 0  
  20.     demo = math.sqrt(sum_x * sum_y)  
  21.     return sum_xy / demo  
  22.   
  23. #读取文件,读取以行为单位,每一行是列表里的一个元素  
  24. def readFile(filename):  
  25.     contents = []  
  26.     f = open(filename, "r")  
  27.     contents = f.readlines()  
  28.     f.close()  
  29.     return contents  
  30.   
  31. #数据格式化为二维数组  
  32. def getRatingInfo(ratings):  
  33.     rates = []  
  34.     for line in ratings:  
  35.         rate = line.split("\t")  
  36.         rates.append([int(rate[0]), int(rate[1]), int(rate[2])])  
  37.     return rates  
  38.   
  39. #生成用户评分数据结构  
  40. def getUserScoreDataStructure(rates):  
  41.       
  42.     #userDict[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2  
  43.     userDict = {}  
  44.     itemUser = {}  
  45.     for k in rates:  
  46.         user_rank = (k[1], k[2])  
  47.         if k[0in userDict:  
  48.             userDict[k[0]].append(user_rank)  
  49.         else:  
  50.             userDict[k[0]] = [user_rank]  
  51.   
  52.         if k[1in itemUser:  
  53.             itemUser[k[1]].append(k[0])  
  54.         else:  
  55.             itemUser[k[1]] = [k[0]]  
  56.     return userDict, itemUser  
  57.   
  58. #计算与指定用户最相近的邻居  
  59. def getNearestNeighbor(userId, userDict, itemUser):  
  60.     neighbors = []  
  61.     for item in userDict[userId]:  
  62.         for neighbor in itemUser[item[0]]:  
  63.             if neighbor != userId and neighbor not in neighbors:  
  64.                 neighbors.append(neighbor)  
  65.     neighbors_dist = []  
  66.     for neighbor in neighbors:  
  67.         dist = getCosDist(userDict[userId], userDict[neighbor])  
  68.         neighbors_dist.append([dist, neighbor])  
  69.     neighbors_dist.sort(reverse = True)  
  70.     return neighbors_dist  
  71.   
  72. #使用UserFC进行推荐,输入:文件名,用户ID,邻居数量  
  73. def recommendByUserFC(filename, userId, k = 5):  
  74.       
  75.     #读取文件  
  76.     contents = readFile(filename)  
  77.   
  78.     #文件格式数据转化为二维数组  
  79.     rates = getRatingInfo(contents)  
  80.   
  81.     #格式化成字典数据  
  82.     userDict, itemUser = getUserScoreDataStructure(rates)  
  83.   
  84.     #找邻居  
  85.     neighbors = getNearestNeighbor(userId, userDict, itemUser)[:5]  
  86.   
  87.     #建立推荐字典  
  88.     recommand_dict = {}  
  89.     for neighbor in neighbors:  
  90.         neighbor_user_id = neighbor[1]  
  91.         movies = userDict[neighbor_user_id]  
  92.         for movie in movies:  
  93.             if movie[0not in recommand_dict:  
  94.                 recommand_dict[movie[0]] = neighbor[0]  
  95.             else:  
  96.                 recommand_dict[movie[0]] += neighbor[0]  
  97.   
  98.     #建立推荐列表  
  99.     recommand_list = []  
  100.     for key in recommand_dict:  
  101.         recommand_list.append([recommand_dict[key], key])  
  102.     recommand_list.sort(reverse = True)  
  103.     user_movies = [k[0for k in userDict[userId]]  
  104.     return [k[1for k in recommand_list], user_movies, itemUser, neighbors  
  105.   
  106. #获取电影的列表  
  107. def getMovieList(filename):  
  108.     contents = readFile(filename)  
  109.     movies_info = {}  
  110.     for movie in contents:  
  111.         single_info = movie.split("|")  
  112.         movies_info[int(single_info[0])] = single_info[1:]  
  113.     return movies_info  
  114.   
  115. #从这里开始运行      
  116. if __name__ == '__main__':  
  117.   
  118.     reload(sys)  
  119.     sys.setdefaultencoding('utf-8')  
  120.       
  121.     #获取所有电影的列表  
  122.     movies = getMovieList("u.item")  
  123.     recommend_list, user_movie, items_movie, neighbors = recommendByUserFC("u.data"5080)  
  124.     neighbors_id=[ i[1for i in neighbors]  
  125.     table = Texttable()  
  126.     table.set_deco(Texttable.HEADER)  
  127.     table.set_cols_dtype(['t''t''t'])  
  128.     table.set_cols_align(["l""l""l"])  
  129.     rows=[]  
  130.     rows.append([u"movie name",u"release", u"from userid"])  
  131.     for movie_id in recommend_list[:20]:  
  132.         from_user=[]  
  133.         for user_id in items_movie[movie_id]:  
  134.             if user_id in neighbors_id:  
  135.                 from_user.append(user_id)  
  136.         rows.append([movies[movie_id][0],movies[movie_id][1],""])  
  137.     table.add_rows(rows)  
  138.     print table.draw()  


推荐结果如下

 

 

 

接下来再来看一个题目,这个题目是2014年阿里的大数据竞赛题目,描述可以参考如下链接

 

题目:http://102.alibaba.com/competition/addDiscovery/gameIntroduce.htm

 

题意:根据用户在天猫的4个月的行为日志,建立用户的品牌偏好,并预测他们在接下来的一个月内对品牌商品的

     购买行为。开放的字段类型如下

 

     

 

解析:http://www.tuicool.com/articles/AN7Rf2

 

上面的是建立的简单的模型,实际上在天猫,有基于行为簇的用户偏好分析。

 

 

协同过滤资料

 

  1. 推荐引擎算法

  2. 开源推荐引擎框架

  3. 协调过滤介绍

  4. Slop one

  5. 基于Map Reduce的协同过滤推荐算法的并行实现

  6. 并行协同过滤推荐模型的研究

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值