器学习中,数据归一化是非常重要,如果不进行数据归一化,可能会导致模型坏掉或者训练出一个奇怪的模型。
为什么要进行数据归一化
现在有一个训练数据集,包含两个样本,内容如下:
样本1 | 1 | 200 |
样本2 | 5 | 100 |
以 k-近邻算法为例,“发现时间”的数值比“肿瘤大小”的数值大很多,样本间的距离被“发现时间”主导,训练出来的模型主要由“发现时间”影响,甚至“肿瘤大小”的影响可忽略不计。
解决方法就是将是数据映射到同一尺度,这就是数据归一化。
数据归一化的两个常用方式为:最值归一化和均值方差归一化。