深入浅出:使用Python构建一个简单的推荐系统—基于用户行为和内容过滤

第一部分:引言及数据准备

1. 引言

在信息过载的时代,推荐系统已经成为了各大互联网公司的核心技术。从电影、书籍推荐的Netflix和Amazon,到音乐推荐的Spotify,到商品推荐的淘宝,推荐系统都在发挥着至关重要的作用。本文将详细介绍如何使用Python构建一个简单的推荐系统,包括基于用户行为的协同过滤和基于内容的推荐。

2. 数据准备

为了构建推荐系统,首先需要一份用户对物品的评分数据。这里,我们使用MovieLens的小型数据集。MovieLens是由明尼苏达大学的GroupLens研究团队维护的一个电影推荐服务。

首先,我们导入必要的库和数据集。

import pandas as pd
import numpy as np

# 加载数据
movies = pd.read_csv('movies.csv')  # 包含电影ID、标题和类别
ratings = pd.read_csv('ratings.csv')  # 包含用户ID、电影ID和评分

print(movies.head())
print(ratings.head())

输出结果:

   movieId                             title                                       genres
0        1                  Toy Story (1995)  Adventure|Animation|Children|Comedy|Fantasy
1        2                    Jumanji (1995)                   Adventure|Children|Fantasy
2        3           Grumpier Old Men (1995)                               Comedy|Romance
3        4          Waiting to Exhale (1995)                         Comedy|Drama|Romance
4        5  Father of the Bride Part II (1995)                                       Comedy

   userId  movieId  rating   timestamp
0       1        1     4.0  964982703
1       1        3     4.0  964981247
2       1        6     4.0  964982224
3       1       47     5.0  964983815
4       1       50     5.0  964982931

为了方便后续的处理,我们将评分数据转化为用户-物品矩阵形式。

# 创建用户-电影评分矩阵
user_movie_ratings = ratings.pivot(index='userId', columns='movieId', values='rating')
print(user_movie_ratings.head())

第二部分:基于用户行为的协同过滤

1. 什么是协同过滤?

协同过滤是一种基于用户行为的推荐技术。基于用户行为的协同过滤推荐的核心思想是:如果两个用户在过去对同一系列物品的行为很相似(例如评分相似),那么他们在未来的行为也可能会很相似。

2. 用户之间的相似度计算

我们可以使用皮尔逊相关系数或余弦相似度来计算用户之间的相似度。这里,我们选择余弦相似度。

from sklearn.metrics.pairwise import cosine_similarity

# 计算用户间的相似度矩阵
user_similarities = cosine_similarity(user_movie_ratings.fillna(0))
user_similarities_df = pd.DataFrame(user_similarities, index=user_movie_ratings.index, columns=user_movie_ratings.index)

print(user_similarities_df.head())

3. 为用户生成推荐

基于上述相似度矩阵,我们可以为每个用户推荐电影。

def get_movie_recommendations(user_id, num_recommendations=5):
    # 获取所有用户与当前用户的相似度
    user_similarities = user_similarities_df[user_id]
    
    # 获取当前用户已经评分过的电影
    rated_movies = user_movie_ratings.loc[user_id].dropna().index
    
    # 计算推荐分数
    weighted_scores = user_movie_ratings.mul(user_similarities, axis=0).sum(axis=0) / user_similarities.sum()
    recommendations = weighted_scores.drop(rated_movies).sort_values(ascending=False).head(num_recommendations)
    
    return recommendations.index.map(movies.set_index('movieId')['title'].get)

# 获取用户ID为5的用户的推荐
print(get_movie_recommendations(5))

第三部分:基于内容的推荐

1. 什么是基于内容的推荐?

基于内容的推荐系统考虑的是物品的内容属性和用户的偏好。例如,如果一个用户喜欢了某部关于冒险的电影,那么系统可能会推荐其他与冒险相关的电影。

2. 准备电影内容特征

为了简化,我们使用电影的类别作为内容特征。

# 将电影类别转化为0和1的矩阵格式
movie_genres = movies['genres'].str.get_dummies(sep='|')
print(movie_genres.head())

3. 计算电影之间的相似度

movie_similarities = cosine_similarity(movie_genres)
movie_similarities_df = pd.DataFrame(movie_similarities, index=movies['movieId'], columns=movies['movieId'])

print(movie_similarities_df.head())

4. 为用户生成基于内容的推荐

def get_content_based_recommendations(user_id, num_recommendations=5):
    # 获取用户评分过的电影和相应的评分
    user_ratings = ratings[ratings['userId'] == user_id]
    
    # 计算基于内容的推荐分数
    weighted_movie_scores = movie_genres.mul(user_ratings.set_index('movieId')['rating'], axis=0).sum(axis=0)
    recommendations = weighted_movie_scores.sort_values(ascending=False).head(num_recommendations + len(user_ratings))
    
    # 移除用户已经评分过的电影
    recommendations = recommendations.drop(user_ratings['movieId'], errors='ignore').head(num_recommendations)
    
    return recommendations.index.map(movies.set_index('movieId')['title'].get)

# 获取用户ID为5的用户的基于内容的推荐
print(get_content_based_recommendations(5))

总结

在这篇文章中,我们详细介绍了如何使用Python构建一个简单的推荐系统,涉及了基于用户行为的协同过滤和基于内容的推荐两种主要方法。当然,实际的推荐系统会更加复杂和多样,但这为入门提供了一个很好的起点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

m0_57781768

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值