数据预处理：标准化与正则化的作用及区别

最新推荐文章于 2025-04-07 15:52:57 发布

Xavier Jiezou

最新推荐文章于 2025-04-07 15:52:57 发布

阅读量5.2k

点赞数 2

分类专栏： machine-learning 文章标签：数据预处理标准化正则化归一化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42951560/article/details/123240428

版权

machine-learning 专栏收录该内容

14 篇文章

订阅专栏

引言

数据标准化和正则化是数据挖掘和机器学习的常用术语，本文简要阐述标准化和正则化的作用及区别，以便更好的从数据中发现和学习知识。

方法

标准化和正则化都是数据预处理过程中常用的方法，对于数据的进一步分析和处理具有重要意义。

数据标准化

数据标准化是将样本的属性缩放到某个指定的范围。

标准化的作用或意义是什么？

某些算法要求样本具有零均值和单位方差
需要消除样本不同属性具有不同量级时的影响
- 数量级的差异将导致量级较大的属性占据主导地位
- 数量级的差异将导致迭代收敛速度减慢
- 依赖于样本距离的算法对于数据的数量级非常敏感

标准化常用的两种方法是：min-max标准化（归一化）和 z-score标准化（规范化）。

min-max标准化（归一化）：对于每个属性，设 minA 和 maxA 分别为属性 A 的最小值和最大值，将 A 的一个原始值 x 通过 min-max 标准化映射成在区间 [0, 1] 的值 x'，其公式为：

$\frac{x-minA}{maxA-minA}$

z-score标准化（规范化）：基于原始数据的均值（mean）和标准差（standard deviation，简记为 std）进行数据的标准化。将 A 的一个原始值 x 使用z-score标准化到 x'。z-score标准化方法适用于属性 A 的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况，其公式为：

$\frac{x-mean}{std}$

数据正则化

数据正则化是将样本的某个范数（如 $L_{1}$ 范数）缩放到单位1。正则的过程是针对单个样本的，将每个样本缩放到单位范数。通常使用二次型（如点积）或者其他核方法计算两个样本之间的相似性。首先对样本求 $L_{p}$ 范数，然后对该样本的每个属性值除以该样本的 $L_{p}$ 范数。

参考

内容节选自海豚大数据实验室。若想进一步了解可参阅这篇文章。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Xavier Jiezou 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。