第一部分:引言及数据准备
1. 引言
在信息过载的时代,推荐系统已经成为了各大互联网公司的核心技术。从电影、书籍推荐的Netflix和Amazon,到音乐推荐的Spotify,到商品推荐的淘宝,推荐系统都在发挥着至关重要的作用。本文将详细介绍如何使用Python构建一个简单的推荐系统,包括基于用户行为的协同过滤和基于内容的推荐。
2. 数据准备
为了构建推荐系统,首先需要一份用户对物品的评分数据。这里,我们使用MovieLens的小型数据集。MovieLens是由明尼苏达大学的GroupLens研究团队维护的一个电影推荐服务。
首先,我们导入必要的库和数据集。
import pandas as pd
import numpy as np
# 加载数据
movies = pd.read_csv('movies.csv') # 包含电影ID、标题和类别
ratings = pd.read_csv('ratings.csv') # 包含用户ID、电影ID和评分
print(movies.head())
print(ratings.head())
输出结果:
movieId title genres
0 1 Toy Story (1995) Adventure|Animation|Children|Comedy|Fantasy
1 2 Jumanji (1995) Adventure|Children|Fantasy
2 3 Grumpier Old Men (1995) Comedy|Romance
3 4 Waiting to Exhale (1995) Comedy|Drama|Romance
4 5 Father of the Bride Part II (1995) Comedy
userId movieId rating timestamp
0 1 1 4.0 964982703
1 1 3 4.0 964981247
2 1 6 4.0 964982224
3 1 47 5.0 964983815
4 1 50 5.0 964982931
为了方便后续的处理,我们将评分数据转化为用户-物品矩阵形式。
# 创建用户-电影评分矩阵
user_movie_ratings = ratings.pivot(index='userId', columns='movieId', values='rating')
print(user_movie_ratings.head())
第二部分:基于用户行为的协同过滤
1. 什么是协同过滤?
协同过滤是一种基于用户行为的推荐技术。基于用户行为的协同过滤推荐的核心思想是:如果两个用户在过去对同一系列物品的行为很相似(例如评分相似),那么他们在未来的行为也可能会很相似。
2. 用户之间的相似度计算
我们可以使用皮尔逊相关系数或余弦相似度来计算用户之间的相似度。这里,我们选择余弦相似度。
from sklearn.metrics.pairwise import cosine_similarity
# 计算用户间的相似度矩阵
user_similarities = cosine_similarity(user_movie_ratings.fillna(0))
user_similarities_df = pd.DataFrame(user_similarities, index=user_movie_ratings.index, columns=user_movie_ratings.index)
print(user_similarities_df.head())
3. 为用户生成推荐
基于上述相似度矩阵,我们可以为每个用户推荐电影。
def get_movie_recommendations(user_id, num_recommendations=5):
# 获取所有用户与当前用户的相似度
user_similarities = user_similarities_df[user_id]
# 获取当前用户已经评分过的电影
rated_movies = user_movie_ratings.loc[user_id].dropna().index
# 计算推荐分数
weighted_scores = user_movie_ratings.mul(user_similarities, axis=0).sum(axis=0) / user_similarities.sum()
recommendations = weighted_scores.drop(rated_movies).sort_values(ascending=False).head(num_recommendations)
return recommendations.index.map(movies.set_index('movieId')['title'].get)
# 获取用户ID为5的用户的推荐
print(get_movie_recommendations(5))
第三部分:基于内容的推荐
1. 什么是基于内容的推荐?
基于内容的推荐系统考虑的是物品的内容属性和用户的偏好。例如,如果一个用户喜欢了某部关于冒险的电影,那么系统可能会推荐其他与冒险相关的电影。
2. 准备电影内容特征
为了简化,我们使用电影的类别作为内容特征。
# 将电影类别转化为0和1的矩阵格式
movie_genres = movies['genres'].str.get_dummies(sep='|')
print(movie_genres.head())
3. 计算电影之间的相似度
movie_similarities = cosine_similarity(movie_genres)
movie_similarities_df = pd.DataFrame(movie_similarities, index=movies['movieId'], columns=movies['movieId'])
print(movie_similarities_df.head())
4. 为用户生成基于内容的推荐
def get_content_based_recommendations(user_id, num_recommendations=5):
# 获取用户评分过的电影和相应的评分
user_ratings = ratings[ratings['userId'] == user_id]
# 计算基于内容的推荐分数
weighted_movie_scores = movie_genres.mul(user_ratings.set_index('movieId')['rating'], axis=0).sum(axis=0)
recommendations = weighted_movie_scores.sort_values(ascending=False).head(num_recommendations + len(user_ratings))
# 移除用户已经评分过的电影
recommendations = recommendations.drop(user_ratings['movieId'], errors='ignore').head(num_recommendations)
return recommendations.index.map(movies.set_index('movieId')['title'].get)
# 获取用户ID为5的用户的基于内容的推荐
print(get_content_based_recommendations(5))
总结
在这篇文章中,我们详细介绍了如何使用Python构建一个简单的推荐系统,涉及了基于用户行为的协同过滤和基于内容的推荐两种主要方法。当然,实际的推荐系统会更加复杂和多样,但这为入门提供了一个很好的起点。