特征工程的意义:
所有一切让模型效果变好的数据处理方式都属于特征工程。
特征预处理
数据清洗
归一化和标准化
数据清洗:
1.数据去重
2.用正则去除的明显错误
数据清洗的方式:
from sklearn.preprocessing import Imputer
1.均值填充
2.中值填充
3.众数填充
imp1 = Imputer(missing_values='NaN', strategy='mean', axis=0) imp2 = Imputer(missing_values='NaN', strategy='median', axis=0) imp3 = Imputer(missing_values='NaN', strategy='most_frequent', axis=0)
# print(imp1.transform(X))#将均值填充 # print(imp1.fit_transform(X))将两项合并 # print(imp1.statistics_) fit()与fit_transformer,fit加transformer可以指定任意一行或者列 而fit_transfomer是对全局进行分转化。在大规模数据中并不适用。
# 按常数填充 imp4 = SimpleImputer(missing_values=np.nan, strategy='constant',fill_value=1) imp4.fit_transform(X)
#
##