Python实现基于内容的协同过滤推荐算法构建电影推荐系统

376 篇文章 275 订阅

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

基于内容(Content Based,CB)的推荐算法,根据用户过去是一段时间内喜欢的物品,由此推测计算出用户的偏好,为用户推荐相似的物品,“内容就是”用户过去一段时间内喜欢的物品,以及由此计算出的用户偏好。该算法的原理非常简单,向用户推荐喜欢的Item的相似的Item。

本项目使用训练数据得到用户的偏好信息矩阵和物品的特征信息矩阵,然后计算该用户对未进行评分电影偏好程度,选取前N个用户推荐给用户。

本项目应用基于内容的协同过滤推荐算法进行相似度计算、给用户推荐及模型评估。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

数据详情如下(部分展示):

ratings.dat数据

数据解释:例如 1::1193::5::978300760

该条记录队列的列是 UserID::MovieID::Rating::Timestamp,表示id为1的用户在978300760时对1193电影评分为5。

users.dat数据:

 

movies.dat数据:

数据解释:例如 1::Toy Story (1995)    ::Animation|Children's|Comedy

数据列以::进行间隔,第1列为电影ID,第2列为电影名称,第3列为电影类型,类型之间使用|进行分割。

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

 关键代码:

3.2 数据缺失查看

使用Pandas工具的info()方法查看数据信息:

 从上图可以看出每种类型的数据样本数和数据项数,数据没有缺失值。

关键代码:

4.探索性数据分析

4.1 评分变量直方图

用Matplotlib工具的hist()方法绘制直方图:

从上图可以看到,评分平均记录主要集中在3.0~4.5之间。

5.特征工程

5.1 电影特征信息矩阵

关键代码如下: 

部分结果展示: 

从上图可以看出,特征矩阵是一个电影类型的矩阵信息,其中1代表属于这种电影类型,0代表不属于这种电影类型。

5.2 用户特征信息矩阵

关键代码如下: 

电影类型偏好程度,部分结果展示: 

6.构建电影推荐系统

主要使用基于内容的协同过滤推荐算法构建电影推荐系统。

6.1 获取用户喜好程度并对用户进行推荐

对用户1进行推荐,推荐结果如下:

关键代码如下:

7.模型评估

7.1 评估指标及结果

评估指标主要包括准确率。随机选择100个用户进行推荐,计算推荐的准确率:

从上表可以看出,准确率为19%,作为一个推荐系统,在数据量有限的情况下,此效果良好。

关键代码如下:

8.结论与展望

综上所述,本项目采用了基于内容的协同过滤推荐算法来构建电影推荐系统,主要包括数据集的读取、探索性数据分析、特征信息矩阵构建、获取用户对电影类型的喜好程度、对用户进行推荐、模型的评估等,最终证明了我们提出的模型效果较好。 

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:

# 链接:https://pan.baidu.com/s/13teZEj4juDSuBt-A-kVTWg 
# 提取码:mwpu


# 定义评分数据处理方法
def process_rating_data(self, file='data/ratings.dat'):
    if os.path.exists("data/ratings.csv"):  # 判断是否存在
        print("*******************************ratings.csv已经存在*******************************")
    # 读取数据
    fp = pd.read_table(file, sep='::', engine='python', names=['UserID', 'MovieID', 'Rating', 'Timestamp'])

    print('***************************查看数据前5行********************************')
    print(fp.head())

    print('***************************数据缺失查看********************************')
    print(fp.info())

    record_m = fp.groupby("UserID")["Rating"].mean()
    import matplotlib.pyplot as plt

    # y变量分布直方图
    fig = plt.figure(figsize=(8, 5))  # 设置画布大小
    plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
    plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题
    # 绘制直方图  bins:控制直方图中的区间个数 auto为自动填充个数  color:指定柱子的填充色
    plt.hist(record_m, bins='auto', color='g')
    plt.xlabel('Rating')
    plt.ylabel('数量')
    plt.title('Rating变量分布直方图')
    plt.show()
  • 5
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
使用Python实现基于Movielens数据集的协同过滤算法推荐,可以按照以下步骤进行: 1. 下载Movielens数据集,并将其转换为pandas DataFrame格式: ```python import pandas as pd # 读取数据集 ratings_data = pd.read_csv('ratings.csv') movies_data = pd.read_csv('movies.csv') # 数据预处理 ratings_data = ratings_data.drop(['timestamp'], axis=1) movies_data = movies_data.drop(['genres'], axis=1) # 合并数据 movie_ratings_data = pd.merge(ratings_data, movies_data, on='movieId') ``` 2. 使用scikit-learn库的train_test_split函数将数据集划分为训练集和测试集: ```python from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(movie_ratings_data, test_size=0.2) ``` 3. 计算电影之间的相似度: ```python # 构建电影评分矩阵 movie_ratings_matrix = train_data.pivot_table(index='userId', columns='title', values='rating') # 计算电影之间的相似度 from sklearn.metrics.pairwise import cosine_similarity movie_similarity_matrix = pd.DataFrame(cosine_similarity(movie_ratings_matrix.fillna(0)), index=movie_ratings_matrix.index, columns=movie_ratings_matrix.index) ``` 4. 使用相似度矩阵为用户推荐电影: ```python # 定义推荐函数 def recommend_movies(user_id, top_n): # 获取用户没有评过分的电影 user_unrated_movies = movie_ratings_data[movie_ratings_data['userId'] == user_id][['movieId', 'title']].drop_duplicates() user_rated_movies = train_data[train_data['userId'] == user_id][['movieId', 'title']] user_unrated_movies = pd.merge(user_unrated_movies, user_rated_movies, on=['movieId', 'title'], how='left', indicator=True) user_unrated_movies = user_unrated_movies[user_unrated_movies['_merge'] == 'left_only'][['movieId', 'title']] # 计算每部电影的预测评分 movie_ratings = pd.DataFrame(columns=['movieId', 'predicted_rating']) for movie_id in user_unrated_movies['movieId']: similar_movies = movie_similarity_matrix[movie_id].sort_values(ascending=False)[1:6] similar_movie_ratings = train_data[train_data['movieId'].isin(similar_movies.index)] similar_movie_ratings = similar_movie_ratings.groupby(['movieId'])['rating'].mean() predicted_rating = (similar_movie_ratings * similar_movies).sum() / similar_movies.sum() movie_ratings = movie_ratings.append({'movieId': movie_id, 'predicted_rating': predicted_rating}, ignore_index=True) # 根据预测评分为用户推荐电影 recommended_movies = pd.merge(movie_ratings, movies_data, on='movieId', how='left') recommended_movies = recommended_movies.sort_values('predicted_rating', ascending=False).head(top_n) return recommended_movies[['title', 'predicted_rating']] ``` 以上就是基于Movielens数据集的协同过滤算法推荐的Python实现
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖哥真不错

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值