用于输送给模型的数据是要经过处理的,这样得出的模型才能越来越准确,这里记录一下数据归一化的处理
为什么要数据归一化
比如我们拿鸢尾花数据来讲,如果我们把萼片的宽度单位换成米,长度换成是毫米,那么通过KNN算法来计算,萼片的宽度数值就会小到可以忽略不计,但是萼片的长度就对整体数据影响很大,这就对后面的结果影响很大。所以这个问题也说明,整体的数据需要保持同一个单位量级,不过现实中我们很多特征是代表不同的事物,很难有一个统一的单位来表示,这里就要引入数据归一化概念
数值归一化,就是将数据统一映射到同一个维度上,这样就不会被使用不同单位所影响
数值归一化有最值归一化和均值方差归一化,比较通用的是均值方差归一化
就是矩阵每一个数值减去平均值的差除以方差,得出的数值组成一个矩阵,就是数值归一化
最值归一化,从公式也可以看出,这个方式是有缺陷的,比如我们要统计预测一组关于年龄和收入的数据,然后我们拿到一组数据,这时候发现,有些人很年轻,但是赚的钱贼多,最大值和最小值相距很大,这就导致下面公式中,除数会很大,但