特征提升是识别数据当中有问题的区域,发现哪种数据的处理方式是最有效的。这节主要处理的是数值类型数据。
在对于处理缺失值上面,我们可以删除所有包含缺失值的行,但是这并不有效。 我们可以填充一些数据,包括均值和中值。
我们还可以对数据进行缩放变换。包括z-score、min-max方法、行向量正则化。
其中sklearn中额pipeline能够很大的提升效率。
特征提升是识别数据当中有问题的区域,发现哪种数据的处理方式是最有效的。这节主要处理的是数值类型数据。
在对于处理缺失值上面,我们可以删除所有包含缺失值的行,但是这并不有效。 我们可以填充一些数据,包括均值和中值。
我们还可以对数据进行缩放变换。包括z-score、min-max方法、行向量正则化。
其中sklearn中额pipeline能够很大的提升效率。