如何学习数据分析?做数据分析,尤其是数据建模,一半的时间都会花费在数据预处理上。但不进行预处理又不可行,因为不处理就不能很好地进行数据压缩和可视化,也不能满足模型对数据的要求。
数据预处理重要又费时,如何提高数据预处理的效率呢?数据去量钢化预处理四大方法来了, python帮你轻松实现。
01.
去量钢化四大方法
1. 标准化(StandardScaler)
StandardScaler使每个特征的平均值为0,方差为1。优点是确保每一个特征都在同一个数量级上,缺点是不能保证每个特征的最大值和最小值。
2. 鲁棒标量化(RobustScaler)
RobustScaler原理与StandardScaler类似,使每一个特征的统计属性都位于同一范围。
RobustScalar与StandardScaler不同的是,RobustScaler使用的是中位数和四分位数。
RobustScaler会忽略异常值(即与其他多数点有非常大差异的点)。
3. 最小最大值标量化(MinMaxScaler)
MinMaxScaler用数值本身减去最小值再除以数据范围(最大值-最小值),也使每一个特征的值都位于0和1之间。对二维数据集来说,就是使所有特征的值都位于以(0,0)和(1,1)互为对角线顶点的正方形内。