分清规范化（标准化、归一化）、离散化、正则化、

最新推荐文章于 2023-08-31 16:09:29 发布

Y蓝田大海

最新推荐文章于 2023-08-31 16:09:29 发布

阅读量1.4k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_54828577/article/details/126474842

版权

在机器学习中，特征与模型都很重要，因此在数据集中寻找本质特征有利于后面的工作，借鉴了以前上课的课件，今天总结一下机器学习的几种数据预处理方法。

1. 规范化（包括标准化和归一化）

将特征值按比例缩放映射至指定的区间，例如[-1,0]、[0,1],从而克服不同特征之间的取值差异。

1.1 标准化（Standardization）

Z-score标准化

μ为所有样本特征的平均值，σ为所有样本特征的标准差，处理后的样本特征符合标准正态分布（即均值为0、标准差为1），即：

#标准化
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -4., 6.], [ 0., -4., 2.], [ 1., -1., 0.]])
scaler = preprocessing.StandardScaler().fit(X_train)
X_scaled = scaler.transform(X_train)
#处理后数据的均值和方差
print(X_scaled.mean(axis=0))
print(X_scaled.std(axis=0))
#直接使用模型对测试集数据进行转换
X_test=scaler.transform([[-1.,  6., 2.]])                
print(X_test)

1.2 归一化（Normalization）

min-max normalization：

通过对原始样本特征的进行以下线性变换，使结果值映射到[0,1]之间。

其中，x与x*分别为原始特征与标准化后的特征，x_max与x_min分别为原理特征的最大值与最小值。

缺点：当有新数据加入时，x_max和x_min可能会发生变化，需要重新定义。

#归一化（缩放特征值）
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 2.,  -4.,  3.],
                    [ 4.,  -1.,  5.],
                    [ 1.,  0.,  -2.]])
min_max_scaler=preprocessing.MinMaxScaler(feature_range=(-1, 1))#设区间为[-1,1],默认为[0,1]
x_train_feature = min_max_scaler.fit_transform(X_train)
print('x_train_feature:\n',x_train_feature)
print('----------------------------------------')
X_test = np.array([[ -1.,  0.,  1.]])
X_test_feature = min_max_scaler.transform(X_test)
print('X_test_feature:\n',X_test_feature)

2.离散化（Discretization）

为解决特定的分类问题或为简化分类模型的复杂度，有时需要采用特定标记将特征原始取值进行离散化处理；如在成绩预测中，将小于60分成绩标记为C，将60至80之间的成绩标记为B，将80至100之间的成绩标记为A。

scores=[20,70,60,100,80,66,88,92]
grade=[]
for i in scores:
    if i<60 and i>=0:
        grade.append('C')
    if i>=60 and i<80:
        grade.append('B')
    if i>=80 and i<=100:
       grade.append('A')
print(scores)  
print(grade)