为什么需要进行数据预处理
我们对模型进行训练时,数据集的特征差距过大,会对模型产生不利的影响,就比如我们在预测一个人普通人身高时,如果数据集中包含正常人的身高数据、侏儒症身高和NBA球员的身高数据,那么我们在构建一个预测普通人身高的模型时,侏儒症身高和NBA球身高数据就会对我们的模型产生不利的影响,从而无法准确预测一个普通人的身高。
因此我们将训练集数据传入模型之前,需要对数据集进行预处理。常规的数据预处理有两种方法:归一化和标准化。
归一化处理原理和代码
- 归一化公式
归一化是把所有数据映射到(0,1)之间。公式如下: