数据预处理-归一化,标准化

1.归一化和标准化的作用:

1.收敛速度更快
2.如KNN,在计算距离时,避免某些特征取值太大,使得距离主要取决于这个样本
3.避免数值问题
4.无量纲化

2.归一化

(1)Min-Max Normalization

 x' = (x - X_min) / (X_max - X_min)

(2)平均归一化

x' = (x - μ) / (MaxValue - MinValue)

注:(1)和(2)缺点:当有新数据加入时,可能导致max和min的变化,需要重新定义。
(3)非线性归一化

1)对数函数转换:y = log10(x)
2)反余切函数转换:y = atan(x) * 2 / π

在这里插入图片描述
注:(3)经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

3.标准化

1.标准化
(1)Z-score规范化(标准差标准化 / 零均值标准化)
  x’ = (x - μ)/σ
2.中心化
  x’ = x - μ

4.必须标准化和归一化的模型

1.SVM
2.KNN(计算距离)
3.PCA
4.神经网络(避免数值问题)
5.计算梯度

5.归一化和标准化的本质-线性变换(缩放和平移)

在这里插入图片描述

6.归一化和标准化的区别

在这里插入图片描述

7.归一化和标准化的选择

在这里插入图片描述

8.例子

特征工程中的「归一化」有什么作用? - 忆臻的回答 - 知乎
https://www.zhihu.com/question/20455227/answer/197897298

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值