特征缩放
X_norm=(X-X_min)/(X_max-X_min )
lambda x: (x - x.min()) / (x.max() - x.min())
特征标准化
Gaussian with zero mean and unit variance. z=(x-μ)/σ
numeric_feats = all_X.dtypes[all_X.dtypes != "object"].index
all_X[numeric_feats] = all_X[numeric_feats].apply(lambda x: (x - x.mean())
/ (x.std()))
类别特征预处理:
不能将类别特征简单表示为数字,因为模型会将类别解释成有序,实际上类别是任意排列的,这里可以用One-hot编码方式来表示。这样估计器将每个具有m个可能值的分类特征转换成m个二元特征,只有一个有效。