推荐系统---surprise库的测试

最新推荐文章于 2024-01-10 09:32:32 发布

Dawei_01

最新推荐文章于 2024-01-10 09:32:32 发布

阅读量2.2k

点赞数 1

分类专栏： ML 文章标签：推荐系统 Surprise API

本文链接：https://blog.csdn.net/Dawei_01/article/details/79825032

版权

本文介绍了如何利用Surprise库进行推荐系统开发，包括数据加载、算法选择和模型训练。详细阐述了Surprise库中Reader、Dataset类的使用方法，以及Trainset类的主要属性和方法，如用户和物品ID的转换、评分数据获取等。此外，还提及了算法基础类，特别是fit方法用于训练，get_neighbors和predict方法用于预测用户或物品评分。

摘要由CSDN通过智能技术生成

1：加载数据集

def load_format2trainset():
    file_path = "F:\\ML\\recommendation_data\\music_playlist_farmat.txt"
    # 指定文件格式
    reader = Reader(line_format='user item rating timestamp', sep=',')
    # 从文件读取数据
    music_data = Dataset.load_from_file(file_path, reader=reader)
    print("构建数据集...")
    retrainset = music_data.build_full_trainset()
    return retrainset

主要用的到的类有：Reader --- 解析包含评分的文件 reader类

Dataset--- 包含一些数据集操作，主要方法有load_builtion('数据集名') #加载内置数据集

load_from_df() #加载pandas结构数据

load_from_file() #加载用户自己的数据

load_from_folds() #加载多个数据，例如

# folds_files is a list of tuples containing file paths:
# [(u1.base, u1.test), (u2.base, u2.test), ... (u5.base, u5.test)]
train_file = files_dir + 'u%d.base'
test_file = files_dir + 'u%d.test'
folds_files = [(train_file % i, test_file % i) for i in (1, 2, 3, 4, 5)]

data = Dataset.load_from_folds(folds_files, reader=reader)

对数据集的操作包括：

build_full_trainset()   #不对数据集做切分，返回整个数据
split(n_folds=5, shuffle=True)  #切分数据集

2：算法选择，surprise库包含了基于协同过滤的和基于矩阵分解的两大类算法。

`random_pred.NormalPredictor`	Algorithm predicting a random rating based on the distribution of the training set, which is assumed to be normal.
`baseline_only.BaselineOnly`	Algorithm predicting the baseline estimate for given user and item.

最低0.47元/天解锁文章

Dawei_01

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
推荐系统---surprise库的测试

1：加载数据集def load_format2trainset(): file_path = "F:\\ML\\recommendation_data\\music_playlist_farmat.txt" # 指定文件格式 reader = Reader(line_format='user item rating timestamp', sep=',') # 从文...
复制链接

扫一扫