通过MultiLabelBinarizer进行multi-label分类任务的数据预处理

最新推荐文章于 2024-06-18 10:32:35 发布

JY HUA

最新推荐文章于 2024-06-18 10:32:35 发布

阅读量1.4k

点赞数 6

分类专栏： nlp

本文链接：https://blog.csdn.net/CallMeYunzi/article/details/102464042

版权

nlp 专栏收录该内容

11 篇文章

订阅专栏

（Pandas: How to prepare a Multi-Label Dataset? ）

当进行mutli-class多标签分类任务的数据集构建时，通常我们会需要对如下这样的csv进行处理：

使用sklearn中MultiLabelBinarizer，只需简单的四行代码，即可转换成模型所需要的数据集格式，具体代码如下：

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
mlb_result = mlb.fit_transform([str(df.loc[i,'categories']).split(' ') for i in range(len(df))])
df_final = pd.concat([df['text'],pd.DataFrame(mlb_result,columns=list(mlb.classes_))],axis=1)
df_final