来源:http://t.cn/R50dT09
作者: cambridgecoding
翻译:ictar
现今,推荐系统被用来个性化你在网上的体验,告诉你买什么,去哪里吃,甚至是你应该和谁做朋友。人们口味各异,但通常有迹可循。人们倾向于喜欢那些与他们所喜欢的东西类似的东西,并且他们倾向于与那些亲近的人有相似的口味。推荐系统试图捕捉这些模式,以助于预测你还会喜欢什么东西。电子商务、社交媒体、视频和在线新闻平台已经积极的部署了它们自己的推荐系统,以帮助它们的客户更有效的选择产品,从而实现双赢。
两种最普遍的推荐系统的类型是基于内容和协同过滤(CF)。协同过滤基于用户对产品的态度产生推荐,也就是说,它使用“人群的智慧”来推荐产品。与此相反,基于内容的推荐系统集中于物品的属性,并基于它们之间的相似性为你推荐。一般情况下,协作过滤(CF)是推荐引擎的主力。该算法具有能够自身进行特征学习的一个非常有趣的特性,这意味着它可以开始学习使用哪些特性。CF可以分为基于内存的协同过滤和基于模型的协同过滤。在本教程中,你将使用奇异值分解(SVD)实现基于模型的CF和通过计算余弦相似实现基于内存的CF。
我们将使用MovieLens数据集,它是在实现和测试推荐引擎时所使用的最常见的数据集之一。它包含来自于943个用户以及精选的1682部电影的100K个电影打分。你应该添加解压缩的movielens数据文件夹你的notebook目录下。你也可以在这里下载数据集。import numpyasnp
import pandasaspd
读入u.data文件,它包含完整的数据集。你可以 file, which contains the full dataset. You can在这里(http://files.grouplens.org/datasets/movielens/ml-100k-README.txt)阅读该数据集的简要说明。
header=['user_id','item_id','rating','timestamp']
df=pd.read_csv('ml-100k/u.data',sep='\t',names=header)
先看看数据集中的前两行。接下来,让我们计算唯一用户和电影的数量。n_users=df.user_id.unique().shape[0]
n_items=df.item_id.unique().shape[0]
print'Number of users = '+str(n_users)+' | Number of movies = '+str(n_items)Number of users = 943 | Number of movies =1682
你可以使用scikit-learn库将数据集分割成测试和训练。Cross_validation.train_test_split根据测试样本的比例(test_size),本例中是0.25,来将数据混洗并分割成两个数据集。from sklearn import cross_validationascv
train_data,test_data=cv.train_test_split(df,test_size=0.25)
基于内存的协同过滤
<