One-hot编码

最新推荐文章于 2024-08-14 10:25:29 发布

mumuaixx

最新推荐文章于 2024-08-14 10:25:29 发布

阅读量148

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/mumuaixx/article/details/115260636

版权

数据预处理标签编码独热编码特征工程机器学习

关键词由CSDN通过智能技术生成

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

处理分类数据（有限个字符型的数据）方法：
1.删除非数值型数据（也就是这些分类数据）drop（object）；
2.标签编码；
from sklearn.preprocessing import LabelEncoder
label_encoder=LabelEncoder()
label_encoder.fit([])(拟合)
label_encoder.transform([])(转化)
//fit_transform()
3.独热编码。
独热编码：
对分类（类别）数据：使用标签编码包含了标签的大小关系，而他们实际只是平行关系，会影响模型的分析。
使用独热编码，只增加维度。
pd.get_dummies(data,columns)
dummies:虚拟变量
from sklearn.preprocessing import OneHotEncoder
encoder_one=OneHotEncoder(handle_unknown=‘ignore’,sparse=False) #def独热编码器
encoder_data=encoder.fit_transform(pd.DataFrame(data)) #拟合转换数据
需要恢复索引