scikit-surpris库之dataset module

Dawei_01

于 2018-03-23 11:32:56 发布

阅读量2.8k

点赞数

分类专栏： python语法文章标签： surprise dataset 推荐系统库scikit

本文链接：https://blog.csdn.net/Dawei_01/article/details/79662863

版权

scikit-surprise的dataset模块提供Dataset类及其子类，用于管理和操作推荐系统数据集。内置数据集包括movielens-100k、movielens-1m和Jester 2。用户可以通过多种方式加载数据，如直接使用pandas DataFrame、文件路径或已分好的折叠文件。此外，模块支持数据切分和交叉验证功能，可用于模型训练和评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

dataset module 定义了Dataset及其子类，用于管理数据集。用户可以使用内置的数据集和自己定义的数据集两种，内置的数据集包括：

The movielens-100k dataset.
The movielens-1m dataset.
The Jester dataset 2.

如果数据已经下载之后，可以通过Dataset.load_builtin()方法加载，未下载的会会提示是否下载。加载方法总结如下：

Dataset.load_builtin	加载内置数据集
Dataset.load_from_file	从用户文件加载数据文件
Dataset.load_from_folds	从一些文件加载多份数据（用于交叉验证）
Dataset.folds	产生可以在每份数据集上执行的生成器
DatasetAutoFolds.split	切分数据集成为几份，用于交叉验证