归一化、标准化、正则化的区别

数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤。
虽然存在决策树和随机森林这种少数不需要特征缩放的机器学习算法,但是对于大部分机器学习算法和优化算法来说,如果特征都在同一范围内,会获得更好的结果。

归一化(Normalization)

归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理。换言之,将数据映射到指定的范围之内(通常映射到[0, 1]或者[-1, 1]之间)
公式如下:
线性比例变换法:
y i = x i max ⁡ ( x ) y_{i}=\frac{x_{i}}{\max (x)} yi=max(x)xi
极差变换法:
y i = x i − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) y_{i}=\frac{x_{i}-\min (x)}{\max (x)-\min (x)} yi=max(x)min(x)ximin(x)
特征如下:

  1. 把数据变为(0,1)之间的小数,主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。
  2. 把有量纲表达式变换为无量纲表达式,成为纯量。经过归一化处理的数据,处于同一数量级,可以消除指标之间量纲和量纲单位的影响,提高不同数据指标之间的可比性。
  3. 主要算法:线性转换,即min-max归一化(常用方法 y=(x-min)/(max-min)

标准化(Standardization)

标准化(Standarlization)是为了方便数据的下一步处理,而进行的数据缩放等变换。就是将数据缩放到以0为中心,标准差为1。
标准化后的特征形式服从正态分布,这样学习权重参数更容易。此外,标准化后的数据保持异常值中的有用信息,使得算法对异常值不太敏感,这一点归一化就无法保证。

标准化的公式如下:
在这里插入图片描述
下面用一张表来展示标准化和归一化的区别
在这里插入图片描述
可以看出,标准化将数据集中在了0的两侧,归一化则将数据映射到[0,1]范围内。

正则化(Regularization)

用来引入模型复杂度的惩罚项,防止模型过拟合的方法。利用先验知识,在处理过程中引入正则化因子(regulator),增加引导约束的作用,比如在逻辑回归中使用正则化,可以有效降低过拟合的现象。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青春是首不老歌丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值