Python推荐系统学习笔记(6)基于协同过滤的个性化推荐算法实战---Surprise库实现ItemCF

一、Surprise库简介

      Surprise是一个用于简单快速构建推荐系统的Python库,其底层基于Python Scikit 构建。

      官方文档地址:https://surprise.readthedocs.io/en/stable

      安装方式:(1)通过pip安装,需具有Microsoft C++ Build Tools 环境。

                        (2)通过conda安装,使用miniconda或者anaconda。

      Surprise库由于追求简易性导致其过于封装,因此个人认为相比学术界,其更适用于工业界。

二、Surprise库快速入门:

       编写目标:根据MovieLens数据,计算各电影间的相似度,找寻与ToyStory相似的电影进行推荐。

1、模块准备:

import os
import io
from surprise import KNNBaseline
from surprise import Dataset

2、数据准备过程:

    编写代码:

#载入数据(此处是在线数据,也可设定自定义数据)并设定训练集
data = Dataset.load_builtin('ml-100k')
trainset = data.build_full_trainset()
#相似度计算设定,使用皮尔逊相似度计算法,使用ItemCF的相似度计算
sim_options = {'name': 'pearson_baseline', 'user_based': False}
#使用KNNBaseline算法(一种CF算法)进行推荐系统构建
algo = KNNBaseline(sim_options=sim_options)
algo.train(trainset)
#获得电影名称信息数据
rid_to_name, name_to_rid = read_item_names()

      Surprise提供在线的MovieLens测试数据供使用,运行代码会有下载提示:

      开发者也可以自己定义数据匹配使用(详细内容见官方文档,本文省略)

3、read_item_names()函数:用于读取电影信息数据:

#读取物品(电影)名称信息
def read_item_names():
    file_name = ('E:/ml-100k/u.item') #该文件可从上步在线下载的数据中获取到
    rid_to_name = {}
    name_to_rid = {}
    #读取并解码数据,将结构化数据返回
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            #建立两种dict
            #key是电影id,value是电影名
            rid_to_name[line[0]] = line[1]
            #key是电影名,value是电影id
            name_to_rid[line[1]] = line[0] 
    return rid_to_name, name_to_rid

4、这里引入了两个概念,实际电影ID(来自数据的行,raw_id)和内部电影ID(inner_id,iid),可通过以下代码对两种ID进行测试:

#获得Toy Story电影的电影ID
toy_story_raw_id = name_to_rid['Toy Story (1995)']
print(toy_story_raw_id)
#通过Toy Story电影的电影ID获取该电影的推荐内部id
toy_story_inner_id = algo.trainset.to_inner_iid(toy_story_raw_id)
print(toy_story_inner_id)

5、输出推荐结果:

#获得Toy Story电影的相似(邻居)电影的ID集合
toy_story_neighbors = algo.get_neighbors(toy_story_inner_id, k=10)

#根据相似电影的内部电影ID获得实际电影ID
toy_story_neighbors = (algo.trainset.to_raw_iid(inner_id)
                       for inner_id in toy_story_neighbors)
#根据相似电影的实际电影ID获得实际电影名称
toy_story_neighbors = (rid_to_name[rid]
                       for rid in toy_story_neighbors)
#输出推荐结果
print("与《Toy Story》最相似的10个电影是:")
for movie in toy_story_neighbors:
    print(movie)

结果:

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python机器学习实战教学——基于协同过滤的电影推荐系统(超详细教学,算法分析)》是一本以协同过滤算法为基础,教授Python机器学习实战技巧的书籍。该书通过详细的教学和算法分析,帮助读者理解和运用协同过滤算法实现电影推荐系统协同过滤是一种根据用户历史行为和其他用户间的关系进行推荐的算法。该算法可以通过观察用户的历史观影记录和其他用户的共同观影记录,从而推断用户的个人喜好并给出个性化的电影推荐。 书中首先介绍了协同过滤算法的原理和基本概念,包括用户相似度计算、基于用户的协同过滤和基于物品的协同过滤。然后,书中详细解释了如何使用Python进行数据预处理和特征工程,如数据清洗、特征选择和特征提取等。 接下来,书中介绍了协同过滤算法的具体实现过程。从构建用户-电影评分矩阵开始,通过计算用户间的相似度关系,得出用户对未观看电影的评分预测。同时,书中还讲解了基于物品的协同过滤算法,以及如何通过计算物品之间的相似度来推荐电影。 在算法实现的过程中,书中还给出了详细的代码示例和实战案例,帮助读者理解和掌握算法的具体步骤和实际应用方法。此外,书中还对算法的优化和评估做了深入讲解,帮助读者提高算法的性能和推荐准确度。 总的来说,《Python机器学习实战教学——基于协同过滤的电影推荐系统(超详细教学,算法分析)》是一本深入浅出的书籍,通过清晰的教学和详细的算法分析,帮助读者理解和运用协同过滤算法实现电影推荐系统。无论是对Python机器学习的初学者还是已经有一定基础的读者,都能从中受益匪浅。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值