通过MultiLabelBinarizer进行multi-label分类任务的数据预处理

(Pandas: How to prepare a Multi-Label Dataset? )

 

当进行mutli-class多标签分类任务的数据集构建时,通常我们会需要对如下这样的csv进行处理:

使用sklearn中MultiLabelBinarizer,只需简单的四行代码,即可转换成模型所需要的数据集格式,具体代码如下:

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb_result = mlb.fit_transform([str(df.loc[i,'categories']).split(' ') for i in range(len(df))])
df_final = pd.concat([df['text'],pd.DataFrame(mlb_result,columns=list(mlb.classes_))],axis=1)
df_final

操作完毕并保存,即可直接输入多标签分类bert模型中进行fine-tuning。

  • 6
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值