基于用户的协同过滤算法userCF和基于物品的协同过滤算法itemCF python实现

基于用户的协同过滤算法userCF和基于物品的协同过滤算法itemCF python实现

userCF

# -*- coding: utf-8 -*-
import math

class UserCF:
    def __init__(self):
        self.user_score_dict = self.initUserScore()
        # self.users_sim = self.userSimilarity()
        # self.users_sim = self.userSimilarityBetter()
        self.users_sim = self.UserSimilarityBest()

    # 初始化用户评分数据
    def initUserScore(self):
        user_score_dict = {
   "A": {
   "a": 3.0, "b": 4.0, "c": 0.0, "d": 3.5, "e": 0.0},
                           "B": {
   "a": 4.0, "b": 0.0, "c": 4.5, "d": 0.0, "e": 3.5},
                           "C": {
   "a": 0.0, "b": 3.5, "c": 0.0, "d": 0., "e": 3.0},
                           "D": {
   "a": 0.0, "b": 4.0, "c": 0.0, "d": 3.50, "e": 3.0}}
        return user_score_dict

    # 计算用户之间的相似度,采用的是遍历每一个用户进行计算
    def userSimilarity(self):
        W = dict()
        for u in self.user_score_dict.keys():
            W.setdefault(u,{
   })
            for v in self.user_score_dict.keys():
                if u == v:
                    continue
                u_set = set( [key for key in self.user_score_dict[u].keys() if self.user_score_dict[u][key] > 0])
                v_set = set( [key for key in self.user_score_dict[v].keys() if self.user_score_dict[v][key] > 0])
                W[u][v] = float(len(u_set & v_set)) /</
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是基于用户协同过滤算法UserCF)的Python实现。 首先,我们需要导入必要的库,包括pandas和numpy: ```python import pandas as pd import numpy as np ``` 接着,我们需要加载数据集。这里我们使用MovieLens 100k数据集,可以从以下链接下载: https://grouplens.org/datasets/movielens/100k/ 下载后,将数据集解压到当前目录下,并使用以下代码来加载数据: ```python # 加载用户评分数据 ratings = pd.read_csv('ml-100k/u.data', sep='\t', names=['user_id', 'item_id', 'rating', 'timestamp']) # 加载电影标题数据 movies = pd.read_csv('ml-100k/u.item', sep='|', encoding='latin-1', usecols=[0, 1], names=['item_id', 'title']) ``` 接下来,我们需要将数据集划分为训练集和测试集。这里我们使用80%的数据作为训练集,20%的数据作为测试集: ```python # 将数据集划分为训练集和测试集 from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(ratings, test_size=0.2) ``` 然后,我们需要构建用户-电影评分矩阵。这里我们使用pandas的pivot_table函数: ```python # 构建用户-电影评分矩阵 user_item_matrix = train_data.pivot_table(index='user_id', columns='item_id', values='rating') ``` 接着,我们需要计算用户之间的相似度。这里我们使用余弦相似度来计算用户相似度: ```python # 计算用户相似度 from sklearn.metrics.pairwise import cosine_similarity user_similarity = cosine_similarity(user_item_matrix) ``` 然后,我们可以使用用户相似度来预测用户对电影的评分。具体来说,我们需要先找到用户的k个最相似的用户,然后使用这k个用户的评分来预测当前用户对电影的评分。这里我们使用k=10: ```python # 预测用户对电影的评分 def predict(user_id, item_id): # 找到用户的k个最相似的用户 similar_users = user_similarity[user_id-1].argsort()[:-10:-1] # 计算这k个用户对电影的评分的加权平均值 similar_ratings = user_item_matrix.iloc[similar_users][item_id].dropna() weights = user_similarity[user_id-1][similar_users][:len(similar_ratings)] return np.dot(weights, similar_ratings) / weights.sum() if len(similar_ratings) > 0 else 0 ``` 最后,我们可以使用测试集来评估推荐算法的性能。具体来说,我们需要计算预测评分和实际评分之间的均方根误差(RMSE): ```python # 评估推荐算法的性能 from sklearn.metrics import mean_squared_error test_data['predicted_rating'] = test_data.apply(lambda x: predict(x['user_id'], x['item_id']), axis=1) rmse = np.sqrt(mean_squared_error(test_data['rating'], test_data['predicted_rating'])) print('RMSE:', rmse) ``` 完整的代码如下所示: ```python import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.metrics.pairwise import cosine_similarity from sklearn.metrics import mean_squared_error # 加载用户评分数据 ratings = pd.read_csv('ml-100k/u.data', sep='\t', names=['user_id', 'item_id', 'rating', 'timestamp']) # 加载电影标题数据 movies = pd.read_csv('ml-100k/u.item', sep='|', encoding='latin-1', usecols=[0, 1], names=['item_id', 'title']) # 将数据集划分为训练集和测试集 train_data, test_data = train_test_split(ratings, test_size=0.2) # 构建用户-电影评分矩阵 user_item_matrix = train_data.pivot_table(index='user_id', columns='item_id', values='rating') # 计算用户相似度 user_similarity = cosine_similarity(user_item_matrix) # 预测用户对电影的评分 def predict(user_id, item_id): # 找到用户的k个最相似的用户 similar_users = user_similarity[user_id-1].argsort()[:-10:-1] # 计算这k个用户对电影的评分的加权平均值 similar_ratings = user_item_matrix.iloc[similar_users][item_id].dropna() weights = user_similarity[user_id-1][similar_users][:len(similar_ratings)] return np.dot(weights, similar_ratings) / weights.sum() if len(similar_ratings) > 0 else 0 # 评估推荐算法的性能 test_data['predicted_rating'] = test_data.apply(lambda x: predict(x['user_id'], x['item_id']), axis=1) rmse = np.sqrt(mean_squared_error(test_data['rating'], test_data['predicted_rating'])) print('RMSE:', rmse) ``` 希望这个实现对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值