机器学习数据预处理之标准化/归一化

最新推荐文章于 2024-08-23 10:00:00 发布

道墟散人

最新推荐文章于 2024-08-23 10:00:00 发布

阅读量497

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/qq_36767053/article/details/105044443

版权

36 篇文章 1 订阅

订阅专栏

对于某些需要计算距离的模型（如KNN），标准化后可将不同维度的特征用于比较。

标准化后，在线性模型梯度下降求最优解时更容易收敛。

标准化数据通过减去均值然后除以方差（或标准差），转化后的数据服从均值为0，标准差为1的分布，转化函数为： $\frac{(x-\mu) }{\sigma}$ 。
注意：标准化并不改变原始数据的分布形式，只是对数据进行了线性的变换。

通过公式 $\frac{x-min}{max-min}$ 将数据转化为 $[0, 1]$ 区间，或者通过公式 $\frac{x-mean}{max-min}$ 将数据转化为 $[- 1, 1]$ 区间。

在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，StandardScaler表现更好。
在不涉及距离度量、协方差计算、数据不符合正态分布的时候，可以使用MinMaxScaler。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在 $[0, 255]$ 的范围。