像“性别”这类数据尽量不要使用One Hot编码,因为One Hot编码后分成两个字段性别_是否男,性别_是否女,这两个字段是高度相关的,自变量具有相关关系也称为多重共线性,会影响预测的精度。那要怎么处理性别这类数据呢?
用repalce()把文本类型的赋值成数字类型的就可以啦:
data['is_male'] = data['Gender'].replace({'Female':0,'Male':1})
语法讲解:
Dataframe的数据格式可以接replace()这种方法;
replace()是方法名,是带括号的;
花括号是字典格式用来对多个值进行赋值,格式是:{原值:新值,原值:新值};
处理前后对比:
replace清洗数据的其他用法: