数据标准化与归一化及其区别

最新推荐文章于 2025-04-02 10:54:15 发布

Bigdataxy

最新推荐文章于 2025-04-02 10:54:15 发布

阅读量4.1k

点赞数 10

分类专栏：特征工程文章标签： python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53271322/article/details/128868306

版权

数据标准化和归一化是特征工程的重要步骤，用于消除量纲影响和提升算法性能。标准化通过Z-score转换使数据具有0均值和1方差，适合梯度下降和依赖距离的算法。归一化包括MinMax和MaxAbs两种方式，分别将数据缩放到[0,1]和[-1,1]区间，适用于输出范围有限制的情况。选择哪种方法取决于数据特性和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、数据标准化（Standardization）
二、数据归一化
三、标准化与归一化对比
总结

前言

数据一般都是有单位的，比如身高的单位有米、厘米等。需要对此类数值型特征进行无量纲化处理，即是使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。

主要参考：机器学习算法：特征工程

一、数据标准化（Standardization）

1.为什么使用数据标准化？

某些算法要求样本具有0均值和1方差，即需要样本满足标准正态分布。
需要消除样本不同属性具有不同量级时的影响。例如，数量级的差异将导致量级较大的属性占据主导地位，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）；当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；依赖于样本距离的算法对于数据的数量级非常敏感。

2.数据标准化定义

数据标准化公式如下：
$\overline{x}=\frac{1}{n}\sum^n_{i=1}x_i \\std(x)=\sqrt{\frac{\sum^n_{i=1}(x_i-\overline{x})^2}{n-1}}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Bigdataxy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。