sklearn数据预处理 - 归一化

最新推荐文章于 2023-01-17 12:15:00 发布

铁甲大宝

最新推荐文章于 2023-01-17 12:15:00 发布

阅读量904

点赞数 1

文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/qq_34615112/article/details/105274507

版权

MinMaxScalar

将数据归一化到[0,1]，计算公式如下：
$X_{scaled} = \frac{X - X.min(axis=0))}{X.max(axis=0) - X.min(axis=0)}*(max - min)+min$
其中min,max = feature_range，为归一化后数据的区间，默认是[0,1]。
MinMaxScalar归一化得到的数据会完全落入[0,1]区间内（z-score没有类似区间），而且能使数据归一化落到一定的区间内，同时保留原始数据的结构。

MaxAbsScalar

将数据归一化到[-1,1]，计算公式如下：
$X_{sacled} = \frac{X}{|X|.max(axis=0)}$
同MinMaxScalar相同，MaxAbsScalar得到的数据会完全落入[-1, 1]区间内（z-score没有类似区间），而且能使数据归一化落到一定的区间内，同时保留原始数据的结构。

MinMaxScalar和MaxAbsScalar的优点：

对于方差非常小的属性可以增强其稳定性；
维持稀疏矩阵中为0的条目

StandardScaler

将数据缩放到均值为0，方差为1，计算公式如下：
$X_{sacled} = \frac{X - X.mean(axis=0)}{X.std(axis=0)}$
StandardScaler适合大多数的数据类型的数据，得到的数据是以0为均值，1为方差的正态分布，但这种方法改变了原始数据的结构，因此不适宜用于对稀疏矩阵做数据预处理。
StandardScaler也能够接受 scipy.sparse 作为输入，只要参数 with_mean=False 被准确传入它的构造器。否则会出现 ValueError 的错误，因为默认的中心化会破坏稀疏性，并且经常会因为分配过多的内存而使执行崩溃。

RobustScaler

计算公式如下：
$X_{scaled} = \frac{X - X.median(axis=0)}{X.quantile(max) - X.quantile(min)}$
如果数据包含许多异常值，可以使用RobustScaler或robust_scaler。
RobustScaler将中位数当做数据的中心，移除中位数，然后根据分位数范围（默认为IQR，0.75分位数和0.25分位数间距）

QuantileTransformer

此变换是非线性的。通过累积密度函数投影原始值。可以通过设置参数将数据转化为均匀分布或是高斯分布。

铁甲大宝

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sklearn数据预处理 - 归一化

MinMaxScalar将数据归一化到[0,1]，计算公式如下：Xscaled=X−X.min(axis=0))X.max(axis=0)−X.min(axis=0)∗(max−min)+minX_{scaled} = \frac{X - X.min(axis=0))}{X.max(axis=0) - X.min(axis=0)}*(max - min)+minXscaled=X.max...
复制链接

扫一扫