十大数据预处理方法最强总结（一）标准化、归一化

大模型微调部署

已于 2024-09-12 12:45:12 修改

阅读量4.1k

点赞数 53

文章标签：人工智能大模型 AI大模型 AI 数据预处理学习

于 2024-08-23 10:00:00 首次发布

本文链接：https://blog.csdn.net/star_nwe/article/details/141421653

版权

数据预处理在机器学习和数据科学中是非常非常重要的，因为它直接影响模型的性能和准确性。

提高数据质量: 现实中的数据往往存在噪声、缺失值和异常值。如果不清洗和修正，这些问题会导致模型做出错误的预测或分析。因此，数据预处理通过清理、修复和标准化数据，确保输入的数据是干净、可靠的。
增强模型性能: 不同的特征在数据集中可能有不同的量纲或尺度，这可能会使某些特征对模型的影响过大或过小。通过归一化、标准化和特征选择，可以让模型更均衡地利用所有特征，从而提高模型的性能。
防止过拟合: 过多的特征或不相关的数据会增加模型的复杂性，导致过拟合。通过特征选择和降维，可以减少特征的数量，降低模型的复杂度，从而提高模型的泛化能力，防止过拟合。
处理不平衡数据: 在实际应用中，数据集的类别分布可能严重不平衡，如果不加以处理，模型可能会偏向多数类，忽视少数类。通过过采样、降采样等方法可以平衡数据集，从而提高模型对少数类的识别能力。
提高模型的解释性和效率: 简化数据结构和减少无用特征不仅可以提高模型的计算效率，还能使模型更容易解释。这样，决策者可以更好地理解模型的输出，并做出更明智的决策。

没有有效的数据预处理，模型可能难以捕捉到数据中的真实模式，最终影响预测结果的可靠性。

一、标准化（Standardization）

1. 核心公式

标准化的目标是使数据具有零均值和单位方差。给定一个数据集，标准化的步骤如下：

在这里插入图片描述

通过上述公式，我们将每个数据点转换为标准化值，使得所有数据点的均值为0，方差为1。

2. 优点

提高模型训练的稳定性。
使不同特征具有相同的尺度，适合于对距离敏感的算法。

3. 缺点

对于有明显离群值的数据，标准化可能会受到影响，导致结果不理想。

4. 适用场景

特别适用于要求数据分布近似正态分布的算法，如SVM、线性回归和KNN等。

5. 核心案例

from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据集
california = fetch_california_housing()
data = pd.DataFrame(california.data, columns=california.feature_names)

# 原始数据统计信息
print("原始数据统计信息：\n", data.describe())

# 标准化
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# 将标准化后的数据转为DataFrame
data_scaled = pd.DataFrame(data_scaled, columns=california.feature_names)

# 标准化后数据统计信息
print("标准化后数据统计信息：\n", data_scaled.describe())

# 可视化前后数据分布
plt.figure(figsize=(16, 6))

# 标准化前的分布
plt.subplot(1, 2, 1)
sns.histplot(data['MedInc'], kde=True, color='blue')
plt.title('Distribution of Median Income before Standardization')

# 标准化后的分布
plt.subplot(1, 2, 2)
sns.histplot(data_scaled['MedInc'], kde=True, color='red')
plt.title('Distribution of Median Income after Standardization')

plt.show()

二、归一化（Normalization）

1. 核心公式

归一化的目标是将数据缩放到特定的范围（通常是[0, 1]）。给定一个数据集，归一化的步骤如下：

在这里插入图片描述

通过该公式，所有数据点将被缩放到 [0, 1] 范围内。

2. 优点

使得数据在同一尺度上，有助于加快梯度下降的收敛速度。
适用于需要计算距离的算法，如KNN和神经网络。

3. 缺点

对于有离群值的数据，归一化后的数据分布可能会受到影响。

4. 适用场景

特别适用于距离度量敏感的算法，如KNN、神经网络。

5. 核心案例

我们将使用Iris数据集来展示归一化的效果，并生成相关的图表。

from sklearn.datasets import load_iris
from sklearn.preprocessing import MinMaxScaler
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据集
iris = load_iris()
data = pd.DataFrame(iris.data, columns=iris.feature_names)

# 原始数据统计信息
print("原始数据统计信息：\n", data.describe())

# 归一化
scaler = MinMaxScaler()
data_normalized = scaler.fit_transform(data)

# 将归一化后的数据转为DataFrame
data_normalized = pd.DataFrame(data_normalized, columns=iris.feature_names)

# 归一化数据统计信息
print("归一化后数据统计信息：\n", data_normalized.describe())

# 可视化前后数据分布
plt.figure(figsize=(16, 6))

# 归一化前的分布
plt.subplot(1, 2, 1)
sns.histplot(data['sepal length (cm)'], kde=True, color='green')
plt.title('Distribution of Sepal Length before Normalization')

# 归一化后的分布
plt.subplot(1, 2, 2)
sns.histplot(data_normalized['sepal length (cm)'], kde=True, color='orange')
plt.title('Distribution of Sepal Length after Normalization')

plt.show()