用MovieLens数据集做推荐(Python推荐系统二)

本文介绍如何利用MovieLens数据集在Python中建立推荐系统。首先下载ml-100k数据集,然后在recommendations.py中定义数据路径和相关函数。通过运行代码,测试了数据加载和推荐功能,成功获取了用户评分数据和推荐项。
摘要由CSDN通过智能技术生成

           

              思路:下载MovieLens的数据集,对数据集进行函数定义,定义各数据列的名称,根据上一篇Python写出简单的推荐系统(一) 文中的recommendations.py 的用户相似度进行推荐。

              下载MovieLens的地址: http://grouplens.org/datasets/movielens/ 

(选择ml-100k.zip), 下载后的路径可以是和recommendations.py相同,也可是任意Python下面的其他地方,后面会针对两种情况做相关说明。

 

将下列Python 代码添加到之前recommendations.py 里面:

def loadMovieLensTrain(filename='u1.base'):
    str1 ='./ml-100k/'     

    #加载数据
    prefs={}
    for line in open(str1+filename,'r'):
        (user,movieid,rating,ts)=line.split('\t')
        prefs.setdefault(user,{})
        prefs[user][movieid]=float(rating)
    return prefs

def loadMovieLensTest(filename='u1.test'):            
使用Python实现基于Movielens数据集的协同过滤算法推荐,可以按照以下步骤进行: 1. 下载Movielens数据集,并将其转换为pandas DataFrame格式: ```python import pandas as pd # 读取数据集 ratings_data = pd.read_csv('ratings.csv') movies_data = pd.read_csv('movies.csv') # 数据预处理 ratings_data = ratings_data.drop(['timestamp'], axis=1) movies_data = movies_data.drop(['genres'], axis=1) # 合并数据 movie_ratings_data = pd.merge(ratings_data, movies_data, on='movieId') ``` 2. 使用scikit-learn库的train_test_split函数将数据集划分为训练集和测试集: ```python from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(movie_ratings_data, test_size=0.2) ``` 3. 计算电影之间的相似度: ```python # 构建电影评分矩阵 movie_ratings_matrix = train_data.pivot_table(index='userId', columns='title', values='rating') # 计算电影之间的相似度 from sklearn.metrics.pairwise import cosine_similarity movie_similarity_matrix = pd.DataFrame(cosine_similarity(movie_ratings_matrix.fillna(0)), index=movie_ratings_matrix.index, columns=movie_ratings_matrix.index) ``` 4. 使用相似度矩阵为用户推荐电影: ```python # 定义推荐函数 def recommend_movies(user_id, top_n): # 获取用户没有评过分的电影 user_unrated_movies = movie_ratings_data[movie_ratings_data['userId'] == user_id][['movieId', 'title']].drop_duplicates() user_rated_movies = train_data[train_data['userId'] == user_id][['movieId', 'title']] user_unrated_movies = pd.merge(user_unrated_movies, user_rated_movies, on=['movieId', 'title'], how='left', indicator=True) user_unrated_movies = user_unrated_movies[user_unrated_movies['_merge'] == 'left_only'][['movieId', 'title']] # 计算每部电影的预测评分 movie_ratings = pd.DataFrame(columns=['movieId', 'predicted_rating']) for movie_id in user_unrated_movies['movieId']: similar_movies = movie_similarity_matrix[movie_id].sort_values(ascending=False)[1:6] similar_movie_ratings = train_data[train_data['movieId'].isin(similar_movies.index)] similar_movie_ratings = similar_movie_ratings.groupby(['movieId'])['rating'].mean() predicted_rating = (similar_movie_ratings * similar_movies).sum() / similar_movies.sum() movie_ratings = movie_ratings.append({'movieId': movie_id, 'predicted_rating': predicted_rating}, ignore_index=True) # 根据预测评分为用户推荐电影 recommended_movies = pd.merge(movie_ratings, movies_data, on='movieId', how='left') recommended_movies = recommended_movies.sort_values('predicted_rating', ascending=False).head(top_n) return recommended_movies[['title', 'predicted_rating']] ``` 以上就是基于Movielens数据集的协同过滤算法推荐Python实现。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值