scikit-multilearn 笔记第三节数据集处理

最新推荐文章于 2024-05-22 17:12:34 发布

Tee xm

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量831

点赞数

分类专栏： Scikit-multilearn 文章标签： scikit-multilearn dataset

Scikit-multilearn 专栏收录该内容

5 篇文章 7 订阅

订阅专栏

英文原文: 点我.
声明：此博文为对原英文文章的翻译加个人的理解，一方面为自己学习所用，另一方面为需要中文scikit-multilearn文档的小伙伴提供便利。

侵删

数据集处理

Scikit-multilearn提供了以两种格式加载，保存和操作多标签数据集的方法：

以scipy稀疏格式设置的scikit-multilearn数据集
传统的ARFF文件格式
函数在mod:skmultilearn.dataset module提供。
Scikit-multilearn还提供了scipy稀疏格式的最流行的基准数据集的存储库以及访问它们的方便性函数。

3.1 scikit-multilearn格式

加载scikit-multilearn数据格式比存储ARFF文件更多信息更容易，只需指定数据集文件的路径即可。
如果filename参数不是None，则该字典将保存为bzip2压缩pickle，并且该函数不返回任何内容。

from skmultilearn.dataset import load_dataset_dump,save_dataset_dump
X, y, feature_names, label_names = load_dataset_dump('_static/example.pkl.bz2')
print(X, y, feature_names[:3], label_names[:3])
save_dataset_dump(X[:10,:4], y[:10, :3], feature_names[:4], label_names[:3], filename=None)

在这里插入图片描述
运行代码会报错，是因为_static/example.pkl.bz2文件不存在，需要使用load_dataset来下载。

个人能力有限，望各位批评指正。

Tee xm

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
scikit-multilearn 笔记第三节数据集处理

英文原文: 点我.声明：此博文为对原英文文章的翻译加个人的理解，一方面为自己学习所用，另一方面为需要中文scikit-multilearn文档的小伙伴提供便利。侵删数据集处理Scikit-multilearn提供了以两种格式加载，保存和操作多标签数据集的方法：以scipy稀疏格式设置的scikit-multilearn数据集传统的ARFF文件格式函数在mod:skmultilear...
复制链接

扫一扫