寒假在家保持写代码不手生,实现了这个小推荐系统。
简介:推荐系统的一种简单实现就是,给定一个用户A,找到所有用户中与A最相似的用户B,把B看过的电影中A没看过的挑出来,再把B评分最高的几部挑出来。
1 数据说明
解压缩后用到两个文件 movies.csv 和 ratings.csv 。
movies.csv是各种电影的数据,列分别为 电影编号、电影名、所属类型。
movieId
title
genres
1
Toy Story (1995)
Adventure,Animation,Children,Comedy,Fantasy
2
Jumanji (1995)
Adventure,Children,Fantasy
ratings.csv用户的评分数据,列分别为 用户编号、电影编号、评分、时间戳。
userId
movieId
rating
timestamp
1
1
4.0
964982703
1
3
4.0
964981247
2 数据处理
我们的目的是给定一个用户id,找出他可能喜欢的电影名。
但是两个文件电影信息和用户评分信息是分开的,所以需要合并。
2.1读取原始数据
import pandas as pd
movies = pd.read_csv(r'C:\Users\yyy\Desktop\推荐系统\movies.csv') #注意含中文路径需要在前面加 r