英文原文: 点我.
声明:此博文为对原英文文章的翻译加个人的理解,一方面为自己学习所用,另一方面为需要中文scikit-multilearn文档的小伙伴提供便利。
侵删
数据集处理
Scikit-multilearn提供了以两种格式加载,保存和操作多标签数据集的方法:
- 以scipy稀疏格式设置的scikit-multilearn数据集
- 传统的ARFF文件格式
函数在mod:skmultilearn.dataset module提供。
Scikit-multilearn还提供了scipy稀疏格式的最流行的基准数据集的存储库以及访问它们的方便性函数。
3.1 scikit-multilearn格式
加载scikit-multilearn数据格式比存储ARFF文件更多信息更容易,只需指定数据集文件的路径即可。
如果filename参数不是None,则该字典将保存为bzip2压缩pickle,并且该函数不返回任何内容。
from skmultilearn.dataset import load_dataset_dump,save_dataset_dump
X, y, feature_names, label_names = load_dataset_dump('_static/example.pkl.bz2')
print(X, y, feature_names[:3], label_names[:3])
save_dataset_dump(X[:10,:4], y[:10, :3], feature_names[:4], label_names[:3], filename=None)
运行代码会报错,是因为_static/example.pkl.bz2文件不存在,需要使用load_dataset来下载。
个人能力有限,望各位批评指正。