数据预处理步骤（含优先级）

amyz956

已于 2025-04-10 15:44:07 修改

阅读量2.2k

点赞数 29

文章标签：人工智能机器学习 python

于 2025-04-08 11:34:17 首次发布

本文链接：https://blog.csdn.net/amyz956/article/details/147063597

版权

‌数据预处理的四个步骤及优先级（附Python示例）‌

数据预处理是机器学习和数据分析的核心环节，目的是将原始数据转化为适合建模的格式。以下是 ‌四个关键步骤‌，按 ‌优先级从高到低‌ 排序，并附带Python代码示例：

‌1. 数据清理（最高优先级）‌

‌目标‌：解决数据中的 ‌错误、缺失、重复、异常值‌ 问题，保证数据基础质量。
‌为什么优先‌：脏数据会导致后续步骤全盘失效（如模型误判）。

‌具体操作‌：

‌处理缺失值‌：删除或填充（均值、众数、插值）。
‌删除重复值‌：去除完全相同的行。
‌修正异常值‌：用Z-Score、IQR法过滤或截断。

‌Python示例‌：

import pandas as pd

# 删除缺失值过多的行（阈值50%）

df = df.dropna(thresh=df.shape*0.5, axis=0)

# 用均值填充数值列

df['income'] = df['income'].fillna(df['income'].mean())

# 删除重复行

df = df.drop_duplicates()

# 过滤异常值（如年龄>100为异常）

df = df[df['age'] <= 100]

‌2. 数据转换（次优先级）‌

‌目标‌：将数据转换为 ‌模型可理解的格式‌，解决量纲、分布、类型问题。
‌为什么次优先‌：模型对数值敏感（如SVM受量纲影响，分类模型需要数值输入）。

‌具体操作‌：

‌标准化/归一化‌：MinMaxScaler（缩放到[0,1]）、StandardScaler（均值为0，方差为1）。
‌分类数据编码‌：LabelEncoder（标签编码）、OneHotEncoder（独热编码）。
‌文本向量化‌：TF-IDF、Word2Vec。
‌日期/时间解析‌：提取年、月、日等特征。

‌Python示例‌：

from sklearn.preprocessing import StandardScaler, OneHotEncoder

# 数值标准化

scaler = StandardScaler()

df[['age', 'income']] = scaler.fit_transform(df[['age', 'income']])

# 分类数据独热编码

encoder = OneHotEncoder()

encoded_data = encoder.fit_transform(df[['city']]).toarray()

‌3. 特征工程（中优先级）‌

‌目标‌：通过 ‌创建、选择、组合特征‌ 提升模型性能。
‌为什么中优先‌：依赖干净且转换后的数据，但对结果影响显著（如特征决定模型上限）。

‌具体操作‌：

‌特征构造‌：从现有特征生成新特征（如“单价=总价/数量”）。
‌特征选择‌：用方差阈值、卡方检验、L1正则化筛选重要特征。
‌降维‌：PCA（主成分分析）、LDA（线性判别分析）减少维度。

‌Python示例‌：

from sklearn.feature_selection import SelectKBest, chi2

# 选择Top 5重要特征（卡方检验）

selector = SelectKBest(chi2, k=5)

X_selected = selector.fit_transform(X, y)

# 特征构造（示例：电商数据）

df['price_per_item'] = df['total_price'] / df['item_count']

‌4. 数据分割（最后一步）‌

‌目标‌：将数据划分为 ‌训练集、验证集、测试集‌，避免数据泄露。
‌为什么最后做‌：确保预处理操作仅在训练集上完成，防止测试集信息污染模型。

‌具体操作‌：

‌随机分割‌：train_test_split（常用比例：训练集70%，测试集30%）。
‌时间序列分割‌：按时间划分，防止未来数据影响历史训练。
‌分层抽样‌：保持类别分布一致（如分类任务中正负样本比例）。

‌Python示例‌：

from sklearn.model_selection import train_test_split

# 随机分割（分层抽样）

X_train, X_test, y_train, y_test = train_test_split

( X, y, test_size=0.3,

stratify=y, # 保持类别分布

random_state=42 )

‌优先级总结‌

步骤	优先级	原因
数据清理	1	基础质量不解决，后续操作无意义（如异常值导致模型偏差）。
数据转换	2	模型依赖规范化的输入（如归一化加速梯度下降收敛）。
特征工程	3	依赖干净且转换后的数据，但直接影响模型效果（如特征决定模型上限）。
数据分割	4	必须在所有预处理之后，避免测试集信息泄露（如标准化包含测试集数据）。

‌完整流程示例（Python）‌

# 1. 数据清理

df = df.dropna(subset=['age']) # 删除年龄缺失的行

df = df[df['income'] > 0] # 删除收入为负的异常值

#2. 数据转换

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

df[['age', 'income']] = scaler.fit_transform(df[['age', 'income']])

# 3. 特征工程

df['income_age_ratio'] = df['income'] / df['age'] # 构造新特征

# 4. 数据分割

X = df.drop('target', axis=1)

y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

‌注意事项‌

‌避免测试集污染‌：所有预处理（如标准化）应仅从训练集计算参数，再应用到测试集。

# 正确做法：用训练集的均值和标准差转换测试集
scaler.fit(X_train) # 只在训练集上拟合
X_train = scaler.transform(X_train) X_test = scaler.transform(X_test) # 测试集使用相同的scaler

‌自动化管道‌：使用sklearn.pipeline封装流程，确保步骤可复用。
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='mean')), # 填充缺失值
('scaler', StandardScaler()), # 标准化
('classifier', LogisticRegression()) # 直接接模型 ])
pipeline.fit(X_train, y_train)

注：以下是数据预处理四个步骤与上篇写的数据预处理4个概念区分，

数据预处理4个概念：数据清洗，数据转换，数据规约，数据集成

在数据预处理中，‌数据规约‌（Data Reduction）和 ‌数据集成‌（Data Integration）确实是两个重要概念，但它们与 ‌特征工程‌ 和 ‌数据分割‌ 的范畴有所不同。以下是详细解释：

‌1. 特征工程 vs. 数据规约‌

‌特征工程（Feature Engineering）‌

‌定义‌：通过 ‌创建新特征、选择关键特征、转换特征‌ 来提升模型性能。
‌包含操作‌：
- 构造新特征（如“单价=总价/数量”）。
- 特征选择（过滤无关特征）。
- 降维（如PCA、LDA）。
‌与数据规约的关系‌：
- ‌部分重叠‌：降维（如PCA）既是特征工程，也属于数据规约（减少维度）。
- ‌差异‌：特征工程更侧重“增强特征表达力”，而数据规约更侧重“减少数据量”。