特征归一化(特征缩放)的常用方法

1.为什么要归一化

  • 为了消除特征间单位和尺度差异的影响,需要进行数据标准化处理,以对每维特征同等看待。比如身高和体重,房屋面积和卧室数(例如房屋面积在0-200之间,卧室数量在1-5之间,数字不在一个量纲上)

  • 能提高梯度下降法求解最优解的速度(收敛所需的迭代次数更少)
      如左图是没有经特征归一化的代价函数J(θ)的等值线,右边是经过特征归一化的等值线,可以看出左图呈现出歪斜并且椭圆的形状,如果在这种代价函数上做梯度下降,可能需要较长的时间,才能到达全局最小值。反之,在右图收敛至最小值中心较短。在这里插入图片描述

  • 总之,归一化的目的就是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。

2.归一化方法有哪些

2.1线性函数的归一化
线性函数归一化也称为“最大最小值归一化”,对原始数据做线性的变换,使得结果分布在[0,1]的范围上,公式为:

特点:异常值会对结果造成偏差
2.2零均值归一化

  • 首先求出样本的均值:μ=(x1+x2+⋯+xn)/n
  • 再求出样本的标准差,即样本的值减去平均值的平方和:

变换后的样本z=(x-μ)/σ
选择某一个归一化方法后,在训练集、测试集、新样本上同样都要用相同的方法进行归一化处理

3.哪些算法要做特征归一化

  • 线性回归
  • 逻辑回归
  • 支持向量机
  • 神经网络
    决策树一般不需要归一化,它注重的是信息增益或者信息增益率或者Gini指数
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值