数据标准化与归一化 及其区别

数据标准化和归一化是特征工程的重要步骤,用于消除量纲影响和提升算法性能。标准化通过Z-score转换使数据具有0均值和1方差,适合梯度下降和依赖距离的算法。归一化包括MinMax和MaxAbs两种方式,分别将数据缩放到[0,1]和[-1,1]区间,适用于输出范围有限制的情况。选择哪种方法取决于数据特性和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

  数据一般都是有单位的,比如身高的单位有米、厘米等。需要对此类数值型特征进行无量纲化处理,即是使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化归一化

主要参考:机器学习算法:特征工程


一、数据标准化(Standardization)

1.为什么使用数据标准化?

  • 某些算法要求样本具有0均值和1方差,即需要样本满足标准正态分布
  • 需要消除样本不同属性具有不同量级时的影响。例如,数量级的差异将导致量级较大的属性占据主导地位,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要);当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;依赖于样本距离的算法对于数据的数量级非常敏感。

2.数据标准化定义

数据标准化公式如下:
x ‾ = 1 n ∑ i = 1 n x i s t d ( x ) = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 \overline{x}=\frac{1}{n}\sum^n_{i=1}x_i \\std(x)=\sqrt{\frac{\sum^n_{i=1}(x_i-\overline{x})^2}{n-1}} x=n1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bigdataxy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值