sklearn中的MultiLabelBinarizer函数详解--构造多标签数据的Label

本文介绍如何使用MultiLabelBinarizer进行多标签分类任务的数据预处理。通过实例演示如何指定标签索引并处理中文标签,简化多标签分类模型的构建过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:多标签分类任务中,总要构造模型输入数据-多标签的Label,MultiLabelBinarizer函数提供了许多的方便,轮子不造也是要学一学的。

 

 
In [3]: from sklearn.preprocessing import MultiLabelBinarizer
   ...: mlb = MultiLabelBinarizer(classes = [2,3,4,5,6,1]) # 注意这里加了classes参数
   ...: mlb.fit_transform([(1, 2), (3,4),(5,)])
   ...:
Out[3]:
array([[1, 0, 0, 0, 0, 1],
       [0, 1, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 0]])
 
In [4]: mlb.classes_
Out[4]: array([2, 3, 4, 5, 6, 1])

classes参数,能指定标签的index,默认是从0开始按顺序给标签编码。

若如上代码,若添加了classes参数,则标签2的编码为[1,0,0,0,0,0], 体会一下

若以中文作为Label,fit函数能直接统计labellist中的label种类,很方便

 
In [3]: from sklearn.preprocessing import MultiLabelBinarizer
   ...: labellist = [['红色'],['绿色'],['红色','绿色']]
   ...: mlb = MultiLabelBinarizer()
   ...: mlb.fit(labellist) # 直接用fit函数,统计label种类,十分好用
   ...: y = []
   ...: for label in labellist:
   ...:     label_matrix = mlb.fit_transform([label])
   ...:     y.append(label_matrix[0])
   ...:y
Out[3]:
array([[1, 0],
       [0, 1],
       [1, 1]])
 
In [4]: mlb.classes_
Out[4]: array(['红色','绿色'])

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值