数据预处理方法

数据处理的方法

在数据分析建模和数据挖掘中,大部分的时间主要都花费在数据处理和分析中。数据的质量直接影响到模型的准确度。下面主要针对数据预处理方面入手整理一些常用的方法。数据预处理分为四步,数据清理、数据变换和变量筛选。

一、数据清理

主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理;分别是缺失值(missing value),异常值(离群点),去重处理(Duplicate Data)处理。
1、缺失值
处理缺失值时,最好事先了解下缺失值得缺失的原因,在某些条件下,缺失值并不是意味着数据有错误。例如:客户征信报告空白,可能不是代表没有抓取过数据,而是客户本来就是白户(即没有发生过借贷和信用卡办理等业务)。了解了数据缺失的原因可以更好的进行数据处理。
处理缺失值得方法主要有一下几个方法:
(1)直接删除:当一个变量缺失大于95%以上,且对于因变量重要程度较低时,可以采用直接删除。
(2)使用特定值填充:当一个属性是类别数据,缺失本身就代表着一种信息,可以采用特定值填充。尽管该方法比较简单,但是并不十分可靠。
(3)使用中心度量(如均值或中位数)填充。对于正常的对称分布而言,均值填充较好;当数据有偏是用中位数填充。
(4)使用可能的填充方法(回归模型,决策树,贝叶斯模型法和插补法)。从理论上看这种方法最严谨,但是成本较高。是否采用应该取决于数据挖掘的业务背景和数据资源质量等确定。
插补法:
主要的插补法引用大神的讲解方法:
1>随机插补法–从总体中随机抽取某几个样本代替缺失样本
2>多重插补法–通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理
3>热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。
  优点:简单易行,准确率较高
  缺点:变量数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层,在层中对缺失值实用均值插补
4>拉格朗日差值法和牛顿插值法

2、异常值得判断和处理
数据样本的异常值是指一个类别变量中某个类别值出现的次数太少,或者一个区间型变量里的某些取值太大等。通常情况下,如果不把异常值处理掉,对于数据分析结论或挖掘模型的效果负面影响较大。
异常值主要有以下几点
(1)对于类别变量来说,个别类型出现次数频率太小,太稀少,就可能是异常值。通常情况下占比不到1%或更少的情况下就可能是异常值。但是具体要按照业务情况来定。
(2)区间变量,对观察的变量进行从小到大的排列,从大的数开始倒推1%查看情况,如果这个和数据中点相距较远,可能就是异常值了。
在一些场景下,异常值可能就是我们研究的目标,例如欺诈事件等。

3、去除重复数据
通常情况下,我们在分数据需要去除重复的数据,重复的数据会对我们样本的数据结构有影响。但某些情况下不能去重,例如在样本数据不足的情况下,我们采用了重复抽样等。

二、数据变换

对于数据建模来讲,数据转换时最常见最重要,也是最有效的一种数据处理技术。经过适当的数据转换后,模型型效果常常有比较明显的提升。主要由于原始数据,分布不光滑,不对称。
常用的转换方法有4类:
1、产生衍生变量
所谓的衍生变量是指根据原始变量进行联合变换,例如一段时间的均值,几个变量的比值等。一般这些和业务背景相关性较大。
2、改善变量分布特征转化
数据区间分布状态偏差较大,而且严格不对称。常常会干扰模型的弥合,最终影响模型的效果。一般可以通过以下方法进行处理。
(1)取对数
(2)开平方根
(3)取倒数
(4)平方
(5)取指数
3、区间型变量分箱转化
分箱转换,就是把区间变量转换成次序变量,主要目的是降低变量复杂性,过滤噪音;提高变量的预测能力(分箱恰当可以有效提高自变量和因变量的相关度,尤其是变量和因变量不成现象关系时)
4、针对区间变量进行标准化处理
数据标准化将数据按比例缩放,落入一个较小区间,是的变量有可比的基础(去量刚等)。常见的方法有最大最小标准化。方差标准化。

三、变量筛选

筛选变量可以提高模型稳定性、提高模型的预测能力和提高运算速度和运算效率。
1、直接删除的变量:
(1) 常数变量或只有一个值得变量。
(2)缺失比例较高,如缺失率95%以上等。
(3)取值太广泛的值,序号等。
2、结合业务进行筛选
3、相关性筛选
|r|<0.3 表示低度相关
0.3≤|r|<0.5 中低度相关
0.5≤|r|<0.8 中度相关
0.8≤|r|<1.0 高度相关
在建模前的变量筛选过程,如果变量数据0.6 以上的相关,只需保留重要度较高的变量即可。
4、R平方
R^2 该方法借鉴多元线性回归分析算法来判断和选择目标变量对预测意义和价值的自变量。表示变量在多大程度上可以解释目标变量的可变性。
5、卡方检验
主要来衡量类别变量,包括次序变量等定性变量之间的关联性以及比较两个或以上的样本率。
6、IV和WOE
当目标是二元变量是,自变量是区间变量是,可以用IV和woe来对自变量判断和取舍。
7、算法模型自身的筛选功能
8、降维方法

数据的主要清洗方法如上,部分记录较为简单和疏漏的地方,进一步改进。

  • 8
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值