python怎么数据归一化_python数据归一化及三种方法详解

最新推荐文章于 2024-05-05 18:02:28 发布

weixin_39671509

最新推荐文章于 2024-05-05 18:02:28 发布

阅读量3.8k

点赞数

文章标签： python怎么数据归一化

数据标准化(归一化)处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是三种常用的归一化方法：

min-max标准化(Min-Max Normalization)

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 , 1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

min-max标准化python代码如下：

?

1

2

3

4

5

6

7

8

9

10

11

12

13import numpy as np

arr = np.asarray([0, 10, 50, 80, 100])

for x in arr:

x = float(x - np.min(arr))/(np.max(arr)- np.min(arr))

print x

# output

# 0.0

# 0.1

# 0.5

# 0.8

# 1.0

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性；

2、维持稀疏矩阵中为0的条目。

下面将数据缩至0-1之间，采用MinMaxScaler函数

?

1

2

3

4

5

6

7

8

9

10

11

12

13from sklearn import preprocessing

import numpy as np

X = np.array([[ 1., -1., 2.],

[ 2., 0., 0.],

[ 0., 1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()

X_minMax = min_max_scaler.fit_transform(X)

最后输出：array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

测试用例：

注意：这些变换都是对列进行处理。

当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min, max)，此时应用的公式变为：

?

1

2X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))

Z-score标准化方法

也称为均值归一化(mean normaliztion)，给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。转化函数为：

训练集归一化处理

mean_of_feature_cols = np.mean(train_features, axis=0)

train_features = (train_features - mean_of_feature_cols) / 255.

测试集归一化处理

test_features = (test_features - mean_of_feature_cols) / 255.

标签的OneHot化处理

for i in np.arange(len(train_labels)):

one_hot_labels[i, train_labels[i]] = 1//

其中 μμ 为所有样本数据的均值，σσ为所有样本数据的标准差。

?

1

2

3

4

5

6

7

8

9

10

11

12

13import numpy as np

arr = np.asarray([0, 10, 50, 80, 100])

for x in arr:

x = float(x - arr.mean())/arr.std()

print x

# output

# -1.24101045599

# -0.982466610991

# 0.0517087689995

# 0.827340303992

# 1.34442799399

weixin_39671509

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python怎么数据归一化_python数据归一化及三种方法详解

数据标准化(归一化)处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。以下是三种常用的归一化方法：min-max标准化(Min-Max Normalization)也称为离差标准化，是对原始...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。