scikit-multilearn 笔记 第三节 数据集处理

英文原文: 点我.
声明:此博文为对原英文文章的翻译加个人的理解,一方面为自己学习所用,另一方面为需要中文scikit-multilearn文档的小伙伴提供便利。

侵删

数据集处理

Scikit-multilearn提供了以两种格式加载,保存和操作多标签数据集的方法:

  • 以scipy稀疏格式设置的scikit-multilearn数据集
  • 传统的ARFF文件格式
    函数在mod:skmultilearn.dataset module提供。
    Scikit-multilearn还提供了scipy稀疏格式的最流行的基准数据集的存储库以及访问它们的方便性函数。

3.1 scikit-multilearn格式

加载scikit-multilearn数据格式比存储ARFF文件更多信息更容易,只需指定数据集文件的路径即可。
如果filename参数不是None,则该字典将保存为bzip2压缩pickle,并且该函数不返回任何内容。

from skmultilearn.dataset import load_dataset_dump,save_dataset_dump
X, y, feature_names, label_names = load_dataset_dump('_static/example.pkl.bz2')
print(X, y, feature_names[:3], label_names[:3])
save_dataset_dump(X[:10,:4], y[:10, :3], feature_names[:4], label_names[:3], filename=None)

在这里插入图片描述
运行代码会报错,是因为_static/example.pkl.bz2文件不存在,需要使用load_dataset来下载。

个人能力有限,望各位批评指正。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值