机器学习中的归一化

归一化能够加速梯度下降的收敛速度,提高精度,尤其在距离计算和涉及特征权重的算法中。它包括线性比例变换、极差变换和0均值标准化等方法。归一化与标准化的主要区别在于数据缩放方式,前者固定在0-1之间,后者依据样本分布。在面对异常值或噪声时,标准化可能更为合适,而概率模型如决策树通常不需要归一化。
摘要由CSDN通过智能技术生成

机器学习中为什么需要归一化

  1. 归一化后加快了梯度下降求最优解的速度;
  2. 归一化有可能提高精度

归一化为什么能提高梯度下降求解最优解的速度?

在这里插入图片描述
如上图所示,蓝色圆圈代表两个特征的的等高线。

  1. 左图中两个特征区别相差特别大。其中一个特征X1的区间是[0,2000],一个特征X2[1,5],所形成的等高线比较尖锐。当时用梯度下降法时,很可能要垂直等高线走,需要很多次迭代才能收敛。
  2. 右图中对两个原始特征进行了归一化处理,其对应的等高线相对来说比较圆,在梯度下降时,可以较快的收敛。

归一化可能提高精度

有些分类器需要计算样本之间的距离,例如k-means。如果一个特征的值域范围特别大。那么距离计算就主要取决于这个特征,有时会与实际情况相违背。(比如这时实际情况是值域范围小的特征更重要)

归一化常用的方法

  1. 线性比例变换法
    y i = x i m a x ( x ) y_i=\frac{x_i}{max(x)} yi=max(x)xi

  2. 极差变换法:
    y i = x i − m i n ( x ) m a x ( x ) − m i n ( x ) y_i=\frac{x_i-min(x)}{max(x)-min(x)}

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值