不正之处,欢迎指教。
“嗨,最经有什么好看的电影吗?”
“那个xxx,xxx我感觉还是不错的,推荐你可以去看一下”
上述情景在我们的生活中可以说是很熟悉的,当我们不知道选择哪一部电影去看的时候,我们就会去询问周围的人,希望从他们那里可以得到一些比较好的推荐,这是属于典型的推荐情景。当我们在询问别人的时候往往会有一个自己的判断,比较倾向于向那些和自己观影差不多的人去询问,你比较喜欢看文艺片,甲喜欢看日本的动漫,那么你是不太会去想他询问的,你会向同样喜欢看文艺片的乙去询问。也就是找那些和自己相似度比较大的人来询问。
在我们网购的时候,经常会出现你可能对XX也感兴趣,提示的XX和你之前浏览过的或者购买过的很相似,不同于我们上述的基于用户的推荐,这种是就要物品的推荐,在本文中,先讨论基于用户的推荐,后续会讨论基于物品的推荐。
1.协同过滤
协同过滤(Collaborative Filtering)字面上的解释就是在别人的帮助下来过滤筛选,协同过滤一般是在海量的用户中发现一小部分和你品味比较相近的,在协同过滤中,这些用户称为邻居,然后根据他们喜欢的东西组织成一个排序的目录来推荐给你。问题的重点就是怎样去寻找和你比较相似的用户,怎么将那些邻居的喜好组织成一个排序的目录给你,要实现一个协同过滤的系统,需要以下几个步骤:
1.收集用户的爱好
2.找到相似的用户或者物品
3.计算推荐
在收集用户的喜欢方面,一般的方式有评分,投票,转发,保存书签,点击连接等等 ,有了用户的喜好之后,就可以通过这些共同的喜好来计算用户之间的相似度了。
2.相似度计算
相似度的计算一般是基于向量的,可以将一个用户对所有的物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对于某一个物品的偏好作为一个向量计算物品之间的相似度,相似度的计算有下列几种方式:
计算欧几里得距离:
利用欧几里得距离计算相似度时,将相似度定义如下:
皮尔逊相关系数:
其中sx,sy表示x和y的标准差。
Cosine相似度:
Tanimoto系数,也称作Jaccard系数:
3.计算推荐
要计算推荐的话必须先要找到和你最相似的用户,这里我们用邻居表示与你最为相似的用户。相似用户的计算可能有很多,在实际中我们会给出一个数字K表示和你最为相似的用户。在计算相似度的时候,理论上要计算你与所有用户的相似度,但是当数据量比较大的时候,这样做是很费时间的 ,数据集中可能有很多用户和你是没有关系的,在计算是完全是没有必要的,所以需要物品到用户的反查表,也就是没一件物品对应的用户信息,有了这个表,就可以过滤掉很多和你没有关系的用户,减少计算量。
计算出了所有的邻居之后,是不是要将你所有邻居的所有商品推荐给你呢,当然不是了。假设每一个商品的权重为1,计算得到A用户和你的相似度为0.2,B用户和你的相似度为0.7,那么可以将AB用户的所有商品乘以他们对应的相似度大小,得到每一个物品的推荐度大小,比方说A中的商品有a,b,c,B中的商品有c,d,那么a商品的推荐程度就是
0.2,b商品的推荐程度就是0.2.c对应的推荐程度就是1*0.2+1*0.7=0.9,d的推荐度就是0.7,所以在推荐的时候,优先把c推荐给你,其次是d。
总结来说,推荐的过程就是先计算用户之间的相似度,根据相似度的高低选取前K个用户,在这K个用户中计算没一件物品的推荐程度。
4.实验过程
针对上面的过程,我们将在MovieLens(http://movielens.org)数据集上进行实验,在实验中,我们主要利用到的数据集中的两个文件u.data和u.item,其中u.item中记录的是电影的相关信息,u.data中主要是用户对电影的评分信息,评分的范围是1-5,文件的每一列分别表示用户ID,电影ID,评分,时间戳。实验主要参考这里
import math
from texttable import Texttable
def calcSimlaryCosDist(user1, user2):
sum_x = 0.0
sum_y = 0.0
sum_xy = 0.0
avg_x = 0.0
avg_y = 0.0
for key in user1:
avg_x += key[1]
avg_x = avg_x / len(user1)
for key in user2:
avg_y += key[1]
avg_y = avg_y / len(user2)
for key1 in user1:
for key2 in user2:
if key1[0] == key2[0]:
sum_xy += (key1[1] - avg_x) * (key2[1] - avg_y)
sum_y += (key2[1] - avg_y) * (key2[1] - avg_y)
sum_x += (key1[1] - avg_x) * (key1[1] - avg_x)
if sum_xy == 0.0:
return 0
sx_sy = math.sqrt(sum_x * sum_y)
return sum_xy / sx_sy
def readFile(file_name):
f=open(file_name,"r",encoding='utf-8')
line=[]
line=f.readlines()
f.close()
return line
#读取电影信息,返回电影的字典,key值为电影ID,value值为电影信息
def getMoviesList(file_name):
lines=readFile(file_name)
movie_info={}
for movie in lines:
arr=movie.split("|")
movie_info[int(arr[0])]=arr[1:]
return movie_info
#将rating文件中的信息转化为数组格式
#返回用户ID,电影ID,评分,时间戳的格式
def getRatingInformation(ratings):
r=[]
for line in ratings:
rate=line.split('\t')
r.append([int(rate[0]),int(rate[1]),int(rate[2])])
return r
#生成用户评分的数据结构
#输入:[[2,1,5],[2,4,2]...],用户2对电影1的评分是5分
#输出:用户打分字典和电影与值打分关联用户的字典
#rate_dic[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2
def createUserRankDic(rates):
user_rate_dict={}
item_to_user={}
for i in rates:
user_rank=(i[1],i[2])
#用户和电影评分之间的字典
if i[0] in user_rate_dict:
user_rate_dict[i[0]].append(user_rank)
else:
user_rate_dict[i[0]]=[user_rank]
#每一部电影和与之相关的用户字典
if i[1] in item_to_user:
item_to_user[i[1]].append(i[0])
else:
item_to_user[i[1]]=[i[0]]
return user_rate_dict,item_to_user
#计算与制定的邻居之间最为相近的邻居
#输入:指定的用户ID,用户对电影的评分表,电影对应的用户表
#输出:与制定用户最为相邻的邻居列表
# 1.用户字典:dic[用户id]=[(电影id,电影评分)...]
# 2.电影字典:dic[电影id]=[用户id1,用户id2...]
def calcNearestNeighbor(userid,user_dict,item_dict):
neighbors=[]
for item in user_dict[userid]:
#在每一部电影与之相关的用户中查找邻居
for neighbor in item_dict[item[0]]:
if neighbor!=userid and neighbor not in neighbors:
neighbors.append(neighbor)
#计算相似度并输出
neighbors_dist=[]
for neighbor in neighbors:
dist=calcSimlaryCosDist(user_dict[userid],user_dict[neighbor])
neighbors_dist.append([dist,neighbor])
neighbors_dist.sort(reverse=True)
return neighbors_dist
def recommendationByUserFC(file_name,userid,k=5):
test_contents=readFile(file_name) #读取文件
test_rates=getRatingInformation(test_contents) #得到用户电影评分之间关系的标准格式
# 格式化成字典数据
# 1.用户字典:dic[用户id]=[(电影id,电影评分)...]
# 2.电影字典:dic[电影id]=[用户id1,用户id2...]
test_dict,test_item_to_user=createUserRankDic(test_rates)
#计算与userid最为相近的前k个用户,返回数组的格式为[[相似度,用户id]...]
neighbors=calcNearestNeighbor(userid,test_dict,test_item_to_user)[:k]
#计算邻居的每一部电影与被推荐用户之间的相似度大小
recommend_dict={}
for neighbor in neighbors:
neighbor_user_id=neighbor[1] #邻居用户的ID
movies=test_dict[neighbor_user_id] #邻居用户对电影的评分列表
#计算每一部电影对用户的推荐程度大小
for movie in movies:
if movie[0] not in recommend_dict:
recommend_dict[movie[0]]=neighbor[0]
else:
recommend_dict[movie[0]]+=neighbor[0]
#建立推荐的列表
recommend_list=[]
for key in recommend_dict:
recommend_list.append([recommend_dict[key],key]) #将字典转化为list,其中元素的第一项为推荐程度大小,第二项为电影的ID
recommend_list.sort(reverse=True) #根据推荐的程度大小进行排序
user_movies=[i[0] for i in test_dict[userid]] #userid用户评分过的所有电影
return [i[1] for i in recommend_list], user_movies, test_item_to_user, neighbors
if __name__=='__main__':
movies=getMoviesList('u.item') #获取电影的列表
recommend_list, user_movie, items_movie, neighbors = recommendationByUserFC('u.data',1,80)
neighbors_id=[i[1] for i in neighbors] #所有邻居的ID
table = Texttable()
table.set_deco(Texttable.HEADER)
table.set_cols_dtype(['t', # text
't', # float (decimal)
't']) # automatic
table.set_cols_align(["l", "l", "l"])
rows = []
rows.append([u"movie name", u"release", u"from userid"])
#输出前20个推荐项
for movie_id in recommend_list[:20]:
from_user = []
for user_id in items_movie[movie_id]:
if user_id in neighbors_id:
from_user.append(user_id)
rows.append([movies[movie_id][0], movies[movie_id][1], from_user[:3]])
table.add_rows(rows)
print (table.draw())
最终的输出结果:
4.参考文章
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
http://blog.csdn.net/ygrx/article/details/15501679