数据标准化处理的“道”和“术”

最新推荐文章于 2023-03-07 14:47:16 发布

jingyi130705008

最新推荐文章于 2023-03-07 14:47:16 发布

阅读量1k

点赞数 2

分类专栏：常见的数据处理技巧文章标签：数据预处理标准化

本文链接：https://blog.csdn.net/jingyi130705008/article/details/78669276

版权

常见的数据处理技巧专栏收录该内容

4 篇文章 3 订阅

订阅专栏

最近一直在思考“在数据分析之前为什么要做数据标准化处理”这个问题，花了点时间来整理一下。

1. 为什么要进行数据标准化处理

为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对评测方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能过进行比较和加权。

为了更好理解进行数据标准化的原因，现给出两个例子。例1：第1个变量的单位是kg，第2个变量的单位是cm，那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值（单位是kg）与第2个变量观察值之差的绝对值（单位是cm ）相加的情况，这显然是不合理的。例2：不同变量自身具有相差较大的变异时，会使在计算出的关系系数中，不同变量所占的比重大不相同。例如如果第1个变量（两水稻品种米粒中的脂肪含量）的数值在2%到4%之间，而第2个变量（两水稻品种的亩产量）的数值范围都在1000与5000之间。因此为了消除量纲影响和变量自身变异大小和数值大小的影响，在进行数据分析之前需要将数据标准化。

2. 标准化处理的常用方法

2.1 Min-max 标准化

Min-max标准化是对原始数据进行线性变换的一种常用方法，也称为离差标准化。其转换公式如下：

其中，max、min分别为样本最大值、最小值。从公式中不难看出，变换后的数据区间为[0,1].

2.2 z-score标准化

该方法基于原始数据的均值和标准差进行数据的标准化，也称为标准差标准化。公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。经过标准差标准化后，各变量将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的平均数为0，标准差为1。经标准化的数据都是没有单位的纯数值。对变量进行的标准差标准化可以消除量纲（单位）影响和变量自身变异的影响。但有人认为经过这种标准化后，原来数值较大的的观察值对分类结果的影响仍然占明显的优势，应该进一步消除大小因子的影响。尽管如此，它还是当前用得最多的数据标准化方法。

2.3 Decimal scaling小数定标标准化

该方法通过移动数据的小数点位置来进行标准化，小数点移动位数取决于变量取值的最大绝对值。公式为：