我们完成分类的时候少做了数据归一化Featur Scaling
两本间的距离发现以时间为主导
在这个例子中,假设两个特征 ,肿瘤大小和发现时间
这两个样本的距离如果是欧拉距离,就是以时间主导了
虽然样本数据中5和1相差5倍,200和100相差2倍
但是由于量纲不同,导致了最终的距离其实是主要发现的天数他们之间的差距
这是因为肿瘤大小之间的差值太小了
如果我们这么调整,那么肿瘤大小又被肿瘤大小所主导
如果我们不处理那么没法同时反映样本每一个特征他的重要程度
正是因为如此我们要进行归一化处理
解决方案:将所有的数据映射到同一尺度
最值归一化:把所有的数据映射到0-1之间
我们把最值归一化叫做normalization
适用于分布有明显边界的情况;受outlier影响较大
比如说考试分数,最左0分,最优100分
再比如说图像像素每一个像素点,他的颜色范围是0-255
这些适合最值归一化
缺点是守outlier影响大
如果我们数据没有明显边界,比如收入的分布,他的分布不是0-???W的范围中
例子:生成0-100的100个随机数X
我们将x进行最值归一化
矩阵也是这么做的
取整数后变成浮点数,对应的每一个都是浮点数
如此进行归一化
我们将第0列归一化
这是第1列,如果有n个就用循环
我们绘制一下样本
看一下平均数
这是方差
这是第一列
均值方差归一化(standardization)
把所有数据归一到均值为0方差为1的分布中
这样做我们数据并不保证在0-1之间,但是所有数据均值在0的位置,整体数据方差为1
数据分布没有明显的边界,有可能存在极端数据值
比较适用没有明显的边界,比如说收入
有可能存在outlier极端值,这种比较好
即使有明显边界,使用这种方式也很好
我建议除了学生分数,像素这种非常明确的,否则用这种
Xmean是均值,S是方差
例子:这是X2
我们绘制散点图,对于这组数据并不能保证是0-1之间
均值非常接近0
方差非常接近1