数据处理(数据集划分) 和特征工程(标准化/归一化) 的顺序问题

麦麦小子

于 2025-04-07 13:14:52 发布

阅读量730

点赞数 15

文章标签：机器学习人工智能特征处理归一化标准化数据集划分

本文链接：https://blog.csdn.net/wanjiayin777/article/details/147041739

版权

在机器学习中，标准化（Standardization）或归一化（Normalization）的正确顺序是：先划分训练集和测试集，再对训练集进行标准化/归一化，并将相同的参数应用于测试集。这是为了避免数据泄漏（Data Leakage），即测试集的信息“污染”训练过程，导致模型评估结果不真实。

核心原因

数据泄漏问题
- 如果对整个数据集（含训练集和测试集）先进行标准化，相当于在预处理时使用了测试集的统计信息（如均值、标准差、最大值/最小值），这会引入未来的知识（future knowledge），导致模型在测试集上的表现被高估，无法反映真实泛化能力。
- 错误示例：
```
# ❌ 错误做法：先标准化再划分
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # 使用全量数据计算均值和标准差
X_train, X_test = train_test_split(X_scaled, test_size=0.2)  # 泄漏测试集信息
```

正确的数据流

训练集的标准化参数（如均值、标准差）必须仅从训练数据中计算，然后直接应用到测试集，确保测试数据完全独立。

正确示例：

# ✅ 正确做法：先划分再标准化
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # 仅用训练集计算参数
X_test_scaled = scaler.transform(X_test)        # 应用训练集的参数到测试集

具体步骤与代码实现

1. 数据划分

from sklearn.model_selection import train_test_split

# 原始数据划分
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

2. 标准化/归一化

标准化（Z-Score）：适用于大多数场景（尤其是数据分布近似高斯分布时）。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # 计算训练集的均值和标准差
X_test_scaled = scaler.transform(X_test)        # 直接使用训练集的参数

归一化（Min-Max）：适用于需要将特征缩放到固定范围（如[0,1]）。

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)  # 计算训练集的最小值和范围
X_test_scaled = scaler.transform(X_test)

为什么必须这样做？

模型评估的真实性 测试集应模拟模型在生产环境中遇到的未知数据，其预处理必须完全基于训练集的统计信息。若预处理时混入测试集数据，相当于“偷看答案”，导致模型性能虚高。
对距离敏感算法的影响 对于KNN、SVM、神经网络等依赖距离或梯度计算的模型，若测试集未使用与训练集相同的缩放参数，特征权重会被扭曲，导致预测偏差。

交叉验证中的注意事项 在交叉验证（Cross-Validation）中，标准化应在每一折的训练集内部进行，而非全局处理：

from sklearn.pipeline import make_pipeline
from sklearn.model_selection import cross_val_score

# 使用Pipeline封装标准化和模型
pipeline = make_pipeline(
    StandardScaler(), 
    KNeighborsClassifier(n_neighbors=5)
)

# 交叉验证时自动避免数据泄漏
scores = cross_val_score(pipeline, X, y, cv=5)