数据的标准化（normalization）和归一化

最新推荐文章于 2021-08-16 17:52:14 发布

hellocsz

最新推荐文章于 2021-08-16 17:52:14 发布

阅读量1.5k

点赞数

from: https://blog.csdn.net/ruthywei/article/details/80980746

归一化的目标

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

目前数据标准化方法有多种，归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法，对系统的评价结果会产生不同的影响，然而不幸的是，在数据标准化方法的选择上，还没有通用的法则可以遵循。

归一化后有两个好处

数据需要归一化的机器学习算法

需要归一化的模型：

有些模型在各个维度进行不均匀伸缩后，最优解与原来不等价，例如SVM（距离分界面远的也拉近了，支持向量变多？）。对于这样的模型，除非本来各维数据的分布范围就比较接近，否则必须进行标准化，以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后，最优解与原来等价，例如logistic regression（因为θ的大小本来就自学习出不同的feature的重要性吧？）。对于这样的模型，是否标准化理论上不会改变最优解。但是，由于实际求解往往使用迭代算法，如果目标函数的形状太“扁”，迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型，最好也进行数据标准化。

不需要归一化的模型：

ICA好像不需要归一化（因为独立成分如果归一化了就不独立了？）。

基于平方损失的最小二乘法OLS不需要归一化。

[线性回归与特征归一化(feature scaling)]

常见的数据归一化方法

min-max标准化(Min-max normalization)/0-1标准化(0-1 normalization)/线性函数归一化/离差标准化

z-score 标准化(zero-mean normalization)

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
原因是使用第一种方法(线性变换后)，其协方差产生了倍数值的缩放，因此这种方式无法消除量纲对方差、协方差的影响，对PCA分析影响巨大；同时，由于量纲的存在，使用不同的量纲、距离的计算结果会不同。而在第二种归一化方式中，新的数据由于对方差进行了归一化，这时候每个维度的量纲其实已经等价了，每个维度都服从均值为0、方差1的正态分布，在计算距离的时候，每个维度都是去量纲化的，避免了不同量纲的选取对距离计算产生的巨大影响。
[再谈机器学习中的归一化方法（Normalization Method） ]

log函数转换

atan函数转换

Decimal scaling小数定标标准化

Logistic/Softmax变换

模糊量化模式

hellocsz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据的标准化（normalization）和归一化

from:https://blog.csdn.net/ruthywei/article/details/80980746归一化的目标数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理，即将数...
复制链接

扫一扫