数据归一化

数据归一化是解决特征之间量纲不同导致的影响,确保每个特征的重要程度能被公平反映。文章介绍了最值归一化和均值方差归一化两种方法,前者适用于有明显边界的分布,后者则对没有明显边界且可能存在极端值的数据更合适。最值归一化将数据映射到0-1之间,而均值方差归一化使数据归一到均值为0,方差为1的分布,更适合大多数情况。
摘要由CSDN通过智能技术生成

我们完成分类的时候少做了数据归一化Featur Scaling


两本间的距离发现以时间为主导


在这个例子中,假设两个特征 ,肿瘤大小和发现时间

这两个样本的距离如果是欧拉距离,就是以时间主导了

虽然样本数据中5和1相差5倍,200和100相差2倍

但是由于量纲不同,导致了最终的距离其实是主要发现的天数他们之间的差距

这是因为肿瘤大小之间的差值太小了 


如果我们这么调整,那么肿瘤大小又被肿瘤大小所主导 


如果我们不处理那么没法同时反映样本每一个特征他的重要程度

正是因为如此我们要进行归一化处理


解决方案:将所有的数据映射到同一尺度

最值归一化:把所有的数据映射到0-1之间


我们把最值归一化叫做normalization

适用于分布有明显边界的情况;受outlier影响较大

比如说考试分数,最左0分,最优100分

再比如说图像像素每一个像素点,他的颜色范围是0-255

这些适合最值归一化

缺点是守outlier影响大

如果我们数据没有明显边界,比如收入的分布,他的分布不是0-???W的范围中

例子:生成0-100的100个随机数X


我们将x进行最值归一化


矩阵也是这么做的


取整数后变成浮点数,对应的每一个都是浮点数


如此进行归一化

我们将第0列归一化


这是第1列,如果有n个就用循环



我们绘制一下样本


看一下平均数


这是方差


这是第一列



均值方差归一化(standardization)

把所有数据归一到均值为0方差为1的分布中

这样做我们数据并不保证在0-1之间,但是所有数据均值在0的位置,整体数据方差为1

数据分布没有明显的边界,有可能存在极端数据值

比较适用没有明显的边界,比如说收入

有可能存在outlier极端值,这种比较好

即使有明显边界,使用这种方式也很好

我建议除了学生分数,像素这种非常明确的,否则用这种



Xmean是均值,S是方差

 

例子:这是X2 


我们绘制散点图,对于这组数据并不能保证是0-1之间


均值非常接近0



方差非常接近1





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值