机器学习分类问题实践——sklearn.preprocessing.MultiLabelBinarizer在中文one-hot编码中的应用
MultiLabelBinarizer
在机器学习自然语言处理的分类问题中,我们经常需要处理大量的中文字符,我们希望知道每一条数据中的某个数据项的出现中文字符的种类,并且进行标注从而进行下一步的处理。
这样描述比较抽象,举个例子,在处理党员干部的违规违纪通报时,对不同违纪的干部有不同的处分,如开除党籍,警告等,现在我们有100条党员干部的违纪通报,希望将每一个干部的处分转化为由0和1组成的序列。
from sklearn.preprocessing import MultiLabelBinarizer as
原创
2020-09-09 10:07:33 ·
597 阅读 ·
0 评论