数据预处理:思路分享及方法总结

1. 数据预处理之前的准备工作

通常,业务数据是某个行业领域的具体数据集,因此,在做数据清洗之前,需要有一定的业务逻辑的数据预处理。
(1)行业领域调研。行业领域调研包括目前该行业领域内的工业界所做出的成果、方法以及学术界对该领域的前言研究方向。
(2)具体业务的实际理解。具体业务的理解需要理清楚该业务有哪些核心关键点,以及有哪些可以从技术手段去解决的实际痛点。
(3)数据表字段的整理。数据的业务字段通常是非常繁杂的,需要落实到每个字段的未来可能使用场景,进行经验和逻辑上的初步字段筛选。

2. 数据预处理方法与过程

在完成上述准备工作后,进入代码层面与业务逻辑结合的数据预处理。根据以下几种不同的数据情况,分为不同的方法与过程。
(1)数据缺失
数据缺失是数据质量中的常见异常。面对数据缺失,首先在基于业务逻辑的基础上,有以下几种处理方法:
剔除:总体样本大,缺失值较少,剔除非完整样本数据;
最大似然填充:依概率分布函数,通过最大似然估计,对缺失值进行填充;
均值、同类型数据、众数等插补:依据业务逻辑和数据分布,插补数据;
手动插补:依据外部经验进行插补;
模型预测:以数据非缺失与缺失进行分割,利用机器学习的方法进行预测填补

(2)数据噪声
数据噪声也是业务数据中难以避免的数据异常问题。通常也是以业务逻辑为基础,有以下几种方法:
回归检测:噪声数据通常偏离整体数据的期望值,以构建回归模型的方法,筛选出偏离回归曲线较大的噪声数据。
卡方检验:以统计学方法,对数据进行卡方估计。
箱线图:通过分位数对数据噪声进行筛选
聚类:通过聚类模型,分离出偏离簇群的数据
数据标准化:归一化、Z-score、小数定标

(3)维度灾难
PCA:主成分分析
矩阵分解:SVD、LDA
模型选择:通过决策树模型、随机森林等模型构建,对数据进行重要性降维筛选
相关性分析:通过皮尔逊相关、信息熵等方法,对数据进行筛选降维
冗余分析:冗余数据逻辑分析,剔除重复值

(4)连续数据离散化
分箱法:等宽分箱、等频分箱
卡方分布离散化:卡方分裂,取卡方值大的区域,进行划分离散
熵的离散化:以最大熵进行自上而下的分裂

(5)离散数据连续化
独热编码:使用N位状态寄存器来对N个状态进行编码
高维映射:以高维映射函数,将离散数据扩展到更高维度,实现连续化

(6)数据样本不平衡
分层采样:数据划分多层次,重新组合多个样本比例均衡的数据集
数据重采样:对少样本数据进行重采样,补充数据
样本随机填补:以随机值填补数据样本集,扩充数据

另附思维导图:

数据预处理技术方法思维导图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值