数据预处理：思路分享及方法总结

最新推荐文章于 2024-04-06 17:40:51 发布

Aseri_ldn

最新推荐文章于 2024-04-06 17:40:51 发布

阅读量1.6k

点赞数 2

分类专栏：数据挖掘文章标签：数据预处理数据挖掘思路分享方法总结

本文链接：https://blog.csdn.net/Aseri_ldn/article/details/100132276

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 数据预处理之前的准备工作

通常，业务数据是某个行业领域的具体数据集，因此，在做数据清洗之前，需要有一定的业务逻辑的数据预处理。
（1）行业领域调研。行业领域调研包括目前该行业领域内的工业界所做出的成果、方法以及学术界对该领域的前言研究方向。
（2）具体业务的实际理解。具体业务的理解需要理清楚该业务有哪些核心关键点，以及有哪些可以从技术手段去解决的实际痛点。
（3）数据表字段的整理。数据的业务字段通常是非常繁杂的，需要落实到每个字段的未来可能使用场景，进行经验和逻辑上的初步字段筛选。

2. 数据预处理方法与过程

在完成上述准备工作后，进入代码层面与业务逻辑结合的数据预处理。根据以下几种不同的数据情况，分为不同的方法与过程。
(1)数据缺失
数据缺失是数据质量中的常见异常。面对数据缺失，首先在基于业务逻辑的基础上，有以下几种处理方法：
剔除：总体样本大，缺失值较少，剔除非完整样本数据；
最大似然填充：依概率分布函数，通过最大似然估计，对缺失值进行填充；
均值、同类型数据、众数等插补：依据业务逻辑和数据分布，插补数据；
手动插补：依据外部经验进行插补；
模型预测：以数据非缺失与缺失进行分割，利用机器学习的方法进行预测填补

(2)数据噪声
数据噪声也是业务数据中难以避免的数据异常问题。通常也是以业务逻辑为基础，有以下几种方法：
回归检测：噪声数据通常偏离整体数据的期望值，以构建回归模型的方法，筛选出偏离回归曲线较大的噪声数据。
卡方检验：以统计学方法，对数据进行卡方估计。
箱线图：通过分位数对数据噪声进行筛选
聚类：通过聚类模型，分离出偏离簇群的数据
数据标准化：归一化、Z-score、小数定标

(3)维度灾难
PCA：主成分分析
矩阵分解：SVD、LDA
模型选择：通过决策树模型、随机森林等模型构建，对数据进行重要性降维筛选
相关性分析：通过皮尔逊相关、信息熵等方法，对数据进行筛选降维
冗余分析：冗余数据逻辑分析，剔除重复值

(4)连续数据离散化
分箱法：等宽分箱、等频分箱
卡方分布离散化：卡方分裂，取卡方值大的区域，进行划分离散
熵的离散化：以最大熵进行自上而下的分裂

(5)离散数据连续化
独热编码：使用N位状态寄存器来对N个状态进行编码
高维映射：以高维映射函数，将离散数据扩展到更高维度，实现连续化

(6)数据样本不平衡
分层采样：数据划分多层次，重新组合多个样本比例均衡的数据集
数据重采样：对少样本数据进行重采样，补充数据
样本随机填补：以随机值填补数据样本集，扩充数据