基于Python库surprise的电影推荐系统

surprise 是一个主流的python推荐系统框架支持的最基本数据格式为movielens dataset,其评分数据格式为 

user item rating timestamp


# -*- coding:utf-8 -*-
from __future__ import (absolute_import, division, print_function, unicode_literals)
import os
import io
from surprise import KNNBaseline
from surprise import Dataset

import logging

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
                    datefmt='%a, %d %b %Y %H:%M:%S')


# 训练推荐模型 步骤:1
def getSimModle():
    # 默认载入movielens数据集
    data = Dataset.load_builtin('ml-100k')
    trainset = data.build_full_trainset()
    #使用pearson_baseline方式计算相似度  False以item为基准计算相似度 本例为电影之间的相似度
    sim_options = {'name': 'pearson_baseline', 'user_based': False}
    ##使用KNNBaseline算法
    algo = KNNBaseline(sim_options=sim_options)
    #训练模型
    algo.train(trainset)
    return algo


# 获取id到name的互相映射  步骤:2
def read_item_names():
    """
    获取电影名到电影id 和 电影id到电影名的映射
    """
    file_name = (os.path.expanduser('~') +
                 '/.surprise_data/ml-100k/ml-100k/u.item')
    rid_to_name = {}
    name_to_rid = {}
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_name[line[0]] = line[1]
            name_to_rid[line[1]] = line[0]
    return rid_to_name, name_to_rid


# 基于之前训练的模型 进行相关电影的推荐  步骤:3
def showSimilarMovies(algo, rid_to_name, name_to_rid):
    # 获得电影Toy Story (1995)的raw_id
    toy_story_raw_id = name_to_rid['Toy Story (1995)']
    logging.debug('raw_id=' + toy_story_raw_id)
    #把电影的raw_id转换为模型的内部id
    toy_story_inner_id = algo.trainset.to_inner_iid(toy_story_raw_id)
    logging.debug('inner_id=' + str(toy_story_inner_id))
    #通过模型获取推荐电影 这里设置的是10部
    toy_story_neighbors = algo.get_neighbors(toy_story_inner_id, 10)
    logging.debug('neighbors_ids=' + str(toy_story_neighbors))
    #模型内部id转换为实际电影id
    neighbors_raw_ids = [algo.trainset.to_raw_iid(inner_id) for inner_id in toy_story_neighbors]
    #通过电影id列表 或得电影推荐列表
    neighbors_movies = [rid_to_name[raw_id] for raw_id in neighbors_raw_ids]
    print('The 10 nearest neighbors of Toy Story are:')
    for movie in neighbors_movies:
        print(movie)


if __name__ == '__main__':
    # 获取id到name的互相映射
    rid_to_name, name_to_rid = read_item_names()

    # 训练推荐模型
    algo = getSimModle()

    ##显示相关电影
    showSimilarMovies(algo, rid_to_name, name_to_rid)

  • 2
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
推荐系统是基于用户的偏好和历史行为来预测用户可能喜欢的物品或内容。在电影推荐系统,常见的算法包括协同过滤、内容过滤和混合推荐。下面是一些常用的电影推荐算法: 1. 协同过滤算法:基于用户或物品之间的相似性进行推荐。其,用户协同过滤(User-based Collaborative Filtering)根据用户之间的相似度来为用户推荐喜欢的电影;物品协同过滤(Item-based Collaborative Filtering)根据电影之间的相似度来为用户推荐类似的电影。常见的相似度度量方法有余弦相似度和皮尔逊相关系数。 2. 内容过滤算法:基于电影的内容特征进行推荐。这些特征可以包括电影的类型、导演、演员、评分等。通过计算用户对这些特征的偏好,来为用户推荐相似的电影。 3. 混合推荐算法:结合协同过滤和内容过滤算法,综合考虑多个因素进行推荐。例如,可以将协同过滤和内容过滤的结果加权融合,或者利用机器学习模型进行综合推荐。 在Python,可以使用一些开源实现电影推荐系统的算法,例如: 1. SurpriseSurprise一个用于构建和评估推荐系统Python库,提供了多种经典的协同过滤算法实现,如基于邻域的方法和矩阵分解方法。 2. LightFM:LightFM是一个用于构建混合推荐系统Python库,支持协同过滤和内容过滤的组合。它提供了一种训练灵活的模型,可以同时考虑用户和物品的特征。 3. scikit-learn:scikit-learn是一个通用的机器学习,其包含了各种机器学习算法和工具。可以使用scikit-learn来构建和评估电影推荐系统机器学习模型。 以上是一些常见的电影推荐系统算法和对应的Python库,你可以根据具体需求选择合适的算法和工具进行实现
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值