处理分类数据(有限个字符型的数据)方法:
1.删除非数值型数据(也就是这些分类数据)drop(object);
2.标签编码;
from sklearn.preprocessing import LabelEncoder
label_encoder=LabelEncoder()
label_encoder.fit([])(拟合)
label_encoder.transform([])(转化)
//fit_transform()
3.独热编码。
独热编码:
对分类(类别)数据:使用标签编码包含了标签的大小关系,而他们实际只是平行关系,会影响模型的分析。
使用独热编码,只增加维度。
pd.get_dummies(data,columns)
dummies:虚拟变量
from sklearn.preprocessing import OneHotEncoder
encoder_one=OneHotEncoder(handle_unknown=‘ignore’,sparse=False) #def独热编码器
encoder_data=encoder.fit_transform(pd.DataFrame(data)) #拟合转换数据
需要恢复索引
独热里项过多不可取,一般不超过37