文章目录
前言
数据预处理是数据化运营过程中的重要环节,他直接决定了后期所有的数据工作的质量和价值输出。包括数据清洗、转换、规约、聚合、抽样等。本文主要介绍标准化的主要方法,并给出代码实操。一、什么是 and 为什么要标准化
-
数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。
-
在项目实例中,一个目标变量Y,是由若干个特征变量X共同影响控制的,如果特征变量X中某些变量X1的量纲和数值的量级远远大于其他变量,那么X1对目标变量Y的影响程度也会远远大于其他变量。
优点: 标准化后的数据不仅可以用作模型计算,还具有直接计算并生成复合指标的意义,是加权指标的必要步骤,同时在神经网络的权重参数的收敛也有加速作用。
二、方法介绍与实操
1.实现中心化和正态分布的Z-Score
Z-Score标准化是基于原始数据的均值和标准差进行的标准化,假设原转化的数据为x,新数据为x`,那么计算公式为:
x`=(x-mean) / std
mean和std分别为x所在列的均值和标准差