姓名:wagsyang
日期:星期四, 08. 十二月 2016 03:25下午
简介
本文是集体智慧编程一书的学习笔记。
一个协作型过滤算法通常是对一大群人进行搜索,并从中找出与我们品味相近的一小群人。算法会对这些人所偏爱的其它内容进行考察,并将它们组合起来构造出一个经过排名的推荐列表。
收集偏好
我们要对不同的人和他对某个事物的偏好找一种表达方式,这里的研究对象是某人对它看过的电影的评价,评分由1到5。
#基于用户的协同过滤
critics={\
'Lisa Rose':{
'lady in water':2.5,'snakes on a plane':3.5,'just my luck':3.0,'superman returns':3.5,'you,me and dupree':2.5,'the night listener':3.0},
'Gene Seymour':{
'lady in water':3.0,'snakes on a plane':3.5,'just my luck':1.5,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Michael Phillips':{
'lady in water':2.5,'snakes on a plane':3.0,'superman returns':3.5,'the night listener':4.0},
'Claudia Puig':{
'snakes on a plane':3.5,'just my luck':3.0,'superman returns':4.0,'the night listener':4.5},
'Mick Lasalle':{
'lady in water':3.0,'snakes on a plane':4.0,'just my luck':2.0,'superman returns':3.0,'you,me and dupree':2.0,'the night listener':3.0},
'Jack Matthews':{
'lady in water':3.0,'snakes on a plane':4.0,'superman returns':5.0,'you,me and dupree':3.5,'the night listener':3.0},
'Toby':{
'snakes on a plane':4.5,'superman returns':4.0,'you,me and dupree':1.0}}
寻找相近的用户
我们已经有了以上的数据,现在我们给你一个人H以及H所看过的电影的评分,怎样判断H与以上哪些人相似度最高?度量相似度的准则又是什么?这里我们介绍两种计算相似度的评价准则。欧几里德距离和皮尔逊相关度。
欧几里德距离
欧几里德距离就是两个点的空间距离:
distance=∑i=j=0n(xi−xj)2‾‾‾‾‾‾‾‾‾‾‾‾‾⎷(1)
(1)式可以计算出距离值,偏好越相似的人,其距离就越短。我们现在需要一个函数,表示偏好越相近这个函数值就越大。我们可以这样:
sim_dist