有时特征内容并不是数值,而是字符串类型。如果直接将字符串转成一个对应的数值,造成原本的特征具有大小关系。这是需要使用 one-hot-encode编码格式。
两种转化方式:
pandas.get_dummies():常用方法,功能强大,操作简单;
sklearn.preprocessing.OneHotEncoder():用法复杂且易报错,较少使用。
pandas.get_dummies(data, columns=["one","two",...], dummy_na=False, ...)
# columns : 需处理的列逐个填写
# dummy_na : 是否将NA作为新的分类
sklearn.preprocessing.OneHotEncoder()使用时需将列的类型转成str类型。一般类的dtype如果是object,OneHotEncoder时会报错,因为object是混合类型,需将类型转换成str类型。
---------------------
作者:scxyz_
来源:CSDN
原文:https://blog.csdn.net/sscc_learning/article/details/73719019
版权声明:本文为博主原创文章,转载请附上博文链接!