缺失值处理总结

在测点测数据的时候存在异常值的情况,比如测得值在量程之外,该值没有意义无法使用,归类在异常值中,作异常值处理,将该异常值删除,则问题转化为缺失值处理。缺失值处理的方法有两种,一种是不处理,直接删除,一种是用合适的值去填补。针对我们的业务需求,我们采用填补的方法,缺失值的填补有很多种方法,分享几种主流的适合业务的方法。

1)特殊值填补

将所有异常值都作为空缺值填补,用一个固定的值去填补,例如用999,这种数字远不符合实际的值,但是在接下来的数据统计种,将缺失值作为一个单独的组去考虑,在统计图标中,为单独得类别

2)广义插补

2.1均值填充

将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。

2.1.1)条件平均值填补

缺失属性值的补齐同样是靠该属性在其他对象中的取值求平均得到,不同于均值天中用的是信息表中所有数据对象的平均,而是用与改对象有相同决策属性值的对象中取平均。
特点:以最大概率可能的取值填补;优点:用现有数据的多数信息来推测

2.2)中位数插补

方法和上面平均值插补类似,只是计算方法不是平均值而是中位数
广义插补法适合缺失值较少的情况,可以直接插补

3)就近补齐

用离该数据相似的值去填补,先找到一个最相似的对象,然后用这个相似对象对应的值去填补。我们的测点数据是30秒测一次,时间变换很短暂,其他的属性变化不会太大,所以也可以用上一条数据的值来代替

4)聚类填充

最为典型的代表是K最近距离邻法,先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
优点:区别于其他单值插补的方法,利用聚类模型,先判断模型类型,再以该类型的均值进行插补;缺点:该种插补方法会引入自相关,增加变量之间的相关性,影响后续分析

5)回归

基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。

6)贝叶斯方法

分别将缺失的属性作为预测项,根据最简单的贝叶斯方法,对该预测项预测。
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值