dataset module 定义了Dataset及其子类,用于管理数据集。用户可以使用内置的数据集和自己定义的数据集两种,内置的数据集包括:
- The movielens-100k dataset.
- The movielens-1m dataset.
- The Jester dataset 2.
如果数据已经下载之后,可以通过Dataset.load_builtin()方法加载,未下载的会会提示是否下载。加载方法总结如下:
Dataset.load_builtin | 加载内置数据集 |
Dataset.load_from_file | 从用户文件加载数据文件 |
Dataset.load_from_folds |
从一些文件加载多份数据(用于交叉验证) |
Dataset.folds |
产生可以在每份数据集上执行的生成器 |
DatasetAutoFolds.split | 切分数据集成为几份,用于交叉验证 |
- class
surprise.dataset.
Dataset
(reader)
加载数据的类方法,注意不用直接实例化,其子类也不用直接实例化,用如下3个方法加载数据集:
- folds():产生在每一份数据集切分子集上迭代的生成器函数,Yields:当前数据子集的元组
注意:1.05版本之后用