1. 原理
协同过滤算法一般需要以下几个步骤
- 收集用户偏好
- 找到相似的用户或物品
- 计算推荐
协同过滤算法主要有基于用户的协同过滤和基于物品的协同过滤。
user_based_CF就是把与你有相同爱好的用户所喜欢的物品(并且你还没有评过分)推荐给你
item_based_CF则与之相反,把和你之前喜欢的物品近似的物品推荐给你
2. 代码
数据下载:https://grouplens.org/datasets/movielens/
ml-100k文件
import numpy as np def load_data(path): data = [] ''' f = open(filename, 'rb').read() data = f.decode().split('\n') ''' with open(path, 'rb') as file: for line in file: (user_id, moive_id,rating,time_stamp) = line.strip().split('\t'.encode(encoding ="utf-8")) data.append([user_id,moive_id,rating]) data = np.array(data).astype(np.uint16) return data class item_based_cf: def __init__(self,train_data): self.train_data = np.array(train_data) print("the input data size is ",self.train_data.shape) self.movie_user = {} self.user_movie = {} self.avg = np.mean(self.train_data[:,2]) #