Python数据预处理—归一化，标准化，正则化

最新推荐文章于 2024-07-01 14:20:03 发布

dengheng4891

最新推荐文章于 2024-07-01 14:20:03 发布

阅读量1.5w

点赞数 4

文章标签： python 人工智能 matlab

原文链接：http://www.cnblogs.com/zhanglianbo/p/5690974.html

版权

本文介绍了Python中数据预处理的三个重要步骤：归一化，标准化和正则化。归一化公式为X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))，然后通过(X_std/(max-min)+min)进行尺度调整。标准化是将数据按比例缩放，使之落入一个小的特定区间。正则化则是为了防止过拟合，通过对参数施加约束或正则项。

摘要由CSDN通过智能技术生成

关于数据预处理的几个概念

归一化 (Normalization)：

属性缩放到一个指定的最大和最小值（通常是1-0）之间，这可以通过preprocessing.MinMaxScaler类实现。

常用的最小最大规范化方法(x-min(x))/(max(x)-min(x))

除了上述介绍的方法之外，另一种常用的方法是将属性缩放到一个指定的最大和最小值（通常是1-0）之间，这可以通过preprocessing.MinMaxScaler类实现。

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性。

2、维持稀疏矩阵中为0的条目

 
      >>> X_train = np.array([[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]])
...
>>> min_max_scaler = preprocessing.MinMaxScaler()
>>> X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[ 0.5 , 0. , 1. ],
[ 1. , 0.5 , 0.33333333],
[ 0. , 1. , 0. ]])
 
>>> #将相同的缩放应用到测试集数据中
>>> X_test = np.array([[ -3., -1., 4.]])
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array