拉格朗日插值法对数据挖掘中缺失值处理

本文参考《Python数据分析与挖掘实战》一书。

 对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式:1.删掉缺失值数据。2不对其进行处理 3.利用插补法对数据进行补充

第一种方式是极为不可取的,如果你的样本数够多,删掉数据较少,这种情况下还是可取的,但是,如果你的数据本身就比较少,而且还删除数据,这样会导致大量的资源浪费,将丢弃了大量隐藏在这些记录中的信息.

 利用插值法对数据进行补充,是极为推荐的一个方式.


上图是我们处理数据的一个部分截图,可以看出在2015/2/14日这一天,我们的数据是缺失的,为此利用插值法对其进行补充,处理后的数据:


可见处理后的数据变成了4156.86.。

另外要说一点是,本程序还设置了对异常数据的过滤值的操作,我们将异常值进行过滤,然后也可以对其进行插补.

关于这个异常值的那一段代码的异常值是怎么判断出来的? 这里面可以有很多的判断方式,比较直观的方式是画箱型图,这样就可以很容易的制定出这样的过滤标准.(我以前的博客对这个问题有详细的描述,附代码)

#利用拉格朗日插值法填充数据
import pandas as pd
from scipy.interpolate import lagrange
inputfile='E:/catering_sale.xls'
outputfile='E:/sale.xls'
data=pd.read_excel(inputfile)
data[u'销量'][(data[u'销量']<400)|(data[u'销量']>5000)]=None

#自定义列向量插值函数
#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5
def ployinterp_column(s,n,k=5):
    #取数
    y=s[list(range(n-k,n))+list(range(n+1,n+1+k))]
    #剔除空值
    y=y[y.notnull()]
    #返回拉格朗日函数结果
    return lagrange(y.index,list(y))(n)

#逐个元素判断是否需要插值
for i in data.columns:
    for j in range(len(data)):
        if(data[i].isnull())[j]:
            data[i][j]=ployinterp_column(data[i],j)
data.to_excel(outputfile)

  • 2
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值