python实现基于物品的隐式协同过滤，使用movielens数据集测试

最新推荐文章于 2019-05-21 17:03:19 发布

王负剑！王负剑！

最新推荐文章于 2019-05-21 17:03:19 发布

阅读量1.8k

点赞数 1

分类专栏： pandas 数据处理中瑞士军刀--Pandas 文章标签： python item

本文链接：https://blog.csdn.net/infent/article/details/85277707

版权

该博客介绍了一种解决用户量增加导致的扩展性和稀疏性问题的方法——基于物品的协同过滤。通过计算物品之间的相似度，并调整余弦分布减去用户平均评分，实现了物品间的推荐。代码中展示了如何计算前100部电影的相似度矩阵，并提供了归一化和反归一化评分的函数，以及预测用户对未评分电影的评分的函数。

摘要由CSDN通过智能技术生成

# 在distance里我们使用的主要是基于用户的协同过滤，但是这样存在两个主要的问题
# 1.扩展性问题，随着用户量变多计算量也会增长，当上百万用户时扩展性就会成为一个问题
# 2.稀疏性，稀疏性，例如网上有上百万本书，用户评价过的只占一小部分，所以可能找不到最近邻居
# 因此，可以使用基于物品的过滤
# 调整余弦分布减去了用户的平均评分
# consine(item1,item2) = 用户对item1，item2的乘积和/用户对item1，2平方和开根号相乘

# 基于物品的推荐把用户行为通过归一化的形式转换为了权重

#代码如下，写得不好的地方还需要改进

import pandas as pd
import numpy as np
path = 'E:\data\ml-latest-small'
# 9724部电影，id 1-170875
movies = pd.read_csv(path + '\movies.csv')
# 100835条打分记录
ratings = pd.read_csv(path + '\\ratings.csv')
# links = pd.read_csv(path + '\links.csv')
# tags = pd.read_csv(path + '\\tags.csv')
data = pd.merge(ratings, movies, on='movieId')
'''
data.nunique()
userId 610
movieId 9724

最低0.47元/天解锁文章

王负剑！王负剑！

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python实现基于物品的隐式协同过滤，使用movielens数据集测试

# 在distance里我们使用的主要是基于用户的协同过滤，但是这样存在两个主要的问题# 1.扩展性问题，随着用户量变多计算量也会增长，当上百万用户时扩展性就会成为一个问题# 2.稀疏性，稀疏性，例如网上有上百万本书，用户评价过的只占一小部分，所以可能找不到最近邻居# 因此，可以使用基于物品的过滤# 调整余弦分布减去了用户的平均评分# consine(item1,item2) = 用户...
复制链接

扫一扫