监督学习中常用的数据预处理方法
在机器学习中,数据预处理是一个非常重要的步骤,它能够对原始数据进行处理和转换,为后续的模型训练提供更好的输入。监督学习中的数据预处理方法包括特征缩放、特征标准化、数据标准化和数据归一化等。下面将详细介绍每种方法的原理、公式推导、计算步骤以及相关的Python代码示例。
特征缩放
特征缩放是指将特征的取值范围进行缩放,以便于不同特征之间的比较。常用的特征缩放方法有最大-最小缩放和标准化缩放两种。
最大-最小缩放
最大-最小缩放通过线性变换将特征的取值范围映射到[0, 1]之间。假设原始特征的取值范围为[x_min, x_max],则最大-最小缩放后的特征值可以通过以下公式得到:
x s c a l e = x − x m i n x m a x − x m i n x_{scale} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}} xscale=xmax−xminx−xmin
其中, x s c a l e x_{scale} xscale为缩放后的特征值, x x x为原始特征值。
最大-最小缩放的计算步骤如下:
- 找出每个特征的最小值 x m i n x_{min} xmin和最大值 x m a x x_{max} xmax;
- 根据公式计算缩放后的特征值 x s c a l e x_{scale} xscale。
下面是一个使用最大-最小缩放对特征进行预处理的Python代码示例:
import numpy as np
# 原始特征
X = np.array([1, 2, 3, 4, 5])
# 计算特征的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)
# 最大-最小缩放
X_scale = (X - x_min) / (x_max - x_min)
print("原始特征:", X)
print("缩放后的特征:", X_scale)
输出结果如下:
原始特征: [1 2 3 4 5]
缩放后的特征: [0. 0.25 0.5 0.75 1. ]
标准化缩放
标准化缩放通过将特征的取值范围转化为均值为0、方差为1的标准正态分布。假设原始特征的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,则标准化缩放后的特征值可以通过以下公式得到:
x s c a l e = x − μ σ x_{scale} = \frac{{x - \mu}}{{\sigma}} xscale=σx−μ
其中, x s c a l e x_{scale} xscale为缩放后的特征值, x x x为原始特征值。
标准化缩放的计算步骤如下:
- 计算每个特征的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2;
- 根据公式计算缩放后的特征值 x s c a l e x_{scale} xscale。
下面是一个使用标准化缩放对特征进行预处理的Python代码示例:
import numpy as np
# 原始特征
X = np.array([1, 2, 3, 4, 5])
# 计算特征的均值和方差
mu = np.mean(X)
sigma = np.std(X)
# 标准化缩放
X_scale = (X - mu) / sigma
print("原始特征:", X)
print("缩放后的特征:", X_scale)
输出结果如下:
原始特征: [1 2 3 4 5]
缩放后的特征: [-1.26491106 -0.63245553 0. 0.63245553 1.26491106]
数据标准化
数据标准化指的是对整个数据集进行标准化缩放,使得数据集的均值为0、方差为1。常见的数据标准化方法有Z-score标准化。
Z-score标准化
Z-score标准化通过将数据集的每个特征减去均值,然后再除以标准差,将数据转化为标准正态分布。假设数据集的均值为 μ \mu μ,标准差为 σ \sigma σ,则Z-score标准化后的数据可以通过以下公式得到:
x s t d = x − μ σ x_{std} = \frac{{x - \mu}}{{\sigma}} xstd=σx−μ
其中, x s t d x_{std} xstd为标准化后的数据, x x x为原始数据。
Z-score标准化的计算步骤如下:
- 计算整个数据集的均值 μ \mu μ和标准差 σ \sigma σ;
- 对每个数据点,根据公式计算标准化后的数值 x s t d x_{std} xstd。
下面是一个使用Z-score标准化对数据集进行预处理的Python代码示例:
import numpy as np
# 原始数据集
X = np.array([1, 2, 3, 4, 5])
# 计算数据集的均值和标准差
mu = np.mean(X)
sigma = np.std(X)
# Z-score标准化
X_std = (X - mu) / sigma
print("原始数据集:", X)
print("标准化后的数据集:", X_std)
输出结果如下:
原始数据集: [1 2 3 4 5]
标准化后的数据集: [-1.26491106 -0.63245553 0. 0.63245553 1.26491106]
数据归一化
数据归一化是指将数据集中的每个数据样本进行缩放,使其范围落在[0, 1]之间。常见的数据归一化方法有线性归一化。
线性归一化
线性归一化通过对每个数据点进行线性变换,将其范围限制在[0, 1]之间。假设数据集的最小值为 x m i n x_{min} xmin,最大值为 x m a x x_{max} xmax,则线性归一化后的数据可以通过以下公式得到:
x n o r m = x − x m i n x m a x − x m i n x_{norm} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}} xnorm=xmax−xminx−xmin
其中, x n o r m x_{norm} xnorm为归一化后的数据, x x x为原始数据。
线性归一化的计算步骤如下:
- 找出数据集的最小值 x m i n x_{min} xmin和最大值 x m a x x_{max} xmax;
- 对每个数据点,根据公式计算归一化后的数值 x n o r m x_{norm} xnorm。
下面是一个使用线性归一化对数据集进行预处理的Python代码示例:
import numpy as np
# 原始数据集
X = np.array([1, 2, 3, 4, 5])
# 计算数据集的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)
# 线性归一化
X_norm = (X - x_min) / (x_max - x_min)
print("原始数据集:", X)
print("归一化后的数据集:", X_norm)
输出结果如下:
原始数据集: [1 2 3 4 5]
归一化后的数据集: [0. 0.25 0.5 0.75 1. ]
以上是监督学习中常用的数据预处理方法,包括特征缩放、数据标准化和数据归一化。根据问题的具体情况,可以选择适合的预处理方法来优化模型的性能。