监督学习中常用的数据预处理方法

监督学习中常用的数据预处理方法

在机器学习中,数据预处理是一个非常重要的步骤,它能够对原始数据进行处理和转换,为后续的模型训练提供更好的输入。监督学习中的数据预处理方法包括特征缩放、特征标准化、数据标准化和数据归一化等。下面将详细介绍每种方法的原理、公式推导、计算步骤以及相关的Python代码示例。

特征缩放

特征缩放是指将特征的取值范围进行缩放,以便于不同特征之间的比较。常用的特征缩放方法有最大-最小缩放标准化缩放两种。

最大-最小缩放

最大-最小缩放通过线性变换将特征的取值范围映射到[0, 1]之间。假设原始特征的取值范围为[x_min, x_max],则最大-最小缩放后的特征值可以通过以下公式得到:

x s c a l e = x − x m i n x m a x − x m i n x_{scale} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}} xscale=xmaxxminxxmin

其中, x s c a l e x_{scale} xscale为缩放后的特征值, x x x为原始特征值。

最大-最小缩放的计算步骤如下:

  1. 找出每个特征的最小值 x m i n x_{min} xmin和最大值 x m a x x_{max} xmax
  2. 根据公式计算缩放后的特征值 x s c a l e x_{scale} xscale

下面是一个使用最大-最小缩放对特征进行预处理的Python代码示例:

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 最大-最小缩放
X_scale = (X - x_min) / (x_max - x_min)

print("原始特征:", X)
print("缩放后的特征:", X_scale)

输出结果如下:

原始特征: [1 2 3 4 5]
缩放后的特征: [0.   0.25 0.5  0.75 1.  ]
标准化缩放

标准化缩放通过将特征的取值范围转化为均值为0、方差为1的标准正态分布。假设原始特征的均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,则标准化缩放后的特征值可以通过以下公式得到:

x s c a l e = x − μ σ x_{scale} = \frac{{x - \mu}}{{\sigma}} xscale=σxμ

其中, x s c a l e x_{scale} xscale为缩放后的特征值, x x x为原始特征值。

标准化缩放的计算步骤如下:

  1. 计算每个特征的均值 μ \mu μ和方差 σ 2 \sigma^2 σ2
  2. 根据公式计算缩放后的特征值 x s c a l e x_{scale} xscale

下面是一个使用标准化缩放对特征进行预处理的Python代码示例:

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的均值和方差
mu = np.mean(X)
sigma = np.std(X)

# 标准化缩放
X_scale = (X - mu) / sigma

print("原始特征:", X)
print("缩放后的特征:", X_scale)

输出结果如下:

原始特征: [1 2 3 4 5]
缩放后的特征: [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据标准化

数据标准化指的是对整个数据集进行标准化缩放,使得数据集的均值为0、方差为1。常见的数据标准化方法有Z-score标准化

Z-score标准化

Z-score标准化通过将数据集的每个特征减去均值,然后再除以标准差,将数据转化为标准正态分布。假设数据集的均值为 μ \mu μ,标准差为 σ \sigma σ,则Z-score标准化后的数据可以通过以下公式得到:

x s t d = x − μ σ x_{std} = \frac{{x - \mu}}{{\sigma}} xstd=σxμ

其中, x s t d x_{std} xstd为标准化后的数据, x x x为原始数据。

Z-score标准化的计算步骤如下:

  1. 计算整个数据集的均值 μ \mu μ和标准差 σ \sigma σ
  2. 对每个数据点,根据公式计算标准化后的数值 x s t d x_{std} xstd

下面是一个使用Z-score标准化对数据集进行预处理的Python代码示例:

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的均值和标准差
mu = np.mean(X)
sigma = np.std(X)

# Z-score标准化
X_std = (X - mu) / sigma

print("原始数据集:", X)
print("标准化后的数据集:", X_std)

输出结果如下:

原始数据集: [1 2 3 4 5]
标准化后的数据集: [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据归一化

数据归一化是指将数据集中的每个数据样本进行缩放,使其范围落在[0, 1]之间。常见的数据归一化方法有线性归一化

线性归一化

线性归一化通过对每个数据点进行线性变换,将其范围限制在[0, 1]之间。假设数据集的最小值为 x m i n x_{min} xmin,最大值为 x m a x x_{max} xmax,则线性归一化后的数据可以通过以下公式得到:

x n o r m = x − x m i n x m a x − x m i n x_{norm} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}} xnorm=xmaxxminxxmin

其中, x n o r m x_{norm} xnorm为归一化后的数据, x x x为原始数据。

线性归一化的计算步骤如下:

  1. 找出数据集的最小值 x m i n x_{min} xmin和最大值 x m a x x_{max} xmax
  2. 对每个数据点,根据公式计算归一化后的数值 x n o r m x_{norm} xnorm

下面是一个使用线性归一化对数据集进行预处理的Python代码示例:

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 线性归一化
X_norm = (X - x_min) / (x_max - x_min)

print("原始数据集:", X)
print("归一化后的数据集:", X_norm)

输出结果如下:

原始数据集: [1 2 3 4 5]
归一化后的数据集: [0.   0.25 0.5  0.75 1.  ]

以上是监督学习中常用的数据预处理方法,包括特征缩放、数据标准化和数据归一化。根据问题的具体情况,可以选择适合的预处理方法来优化模型的性能。

  • 29
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值