什么是数据标准化?
数据标准化(normalization)是指用转化公式对具有不同属性或数量级的指标进行处理使其能够进行比较和加权的过程。
简单来说,数据标准化是将数据按比例缩放,使原来的非标准化数据经过标准化处理后都落入一个区间内,比如[-1,1]区间、[0,1]区间等。(当各变量数据处于一个区间内时,可以更直观的看到一个数据在这个变量内的水平是什么样的。比如变量A有10万个随机观测值,有一个观测值等于800,在不进行任何处理的时候我们很难准确的说出800这个数据在变量A的10万个值中是什么样的水平(若10万个数据中只有2个数据大于700则800在这个变量中无疑是较高的值,若10万个数据中只有2个数据小于900则800在这个变量中是低水平值),如果将变量A进行数据标准化,假如标准化后数据落入区间[-1,1],800这个观测值在标准化后等于0.65则我们有理由认为800在这10万个数据中处于中间稍微偏上的水平。所以说标准化可以让我们更直接知道某个具体的值在该变量中处于什么样的水平。当然,多变量的数据标准化后也有助于变量间的比较。)