import pandas as pd #导入数据分析库pandas
from scipy.interpolate import lagrange # 导入拉格朗日插值函数
#销量数据路径
inputfile=‘D:\data.xls’
#输出数据路径
outputfile=‘D:\CorrectData.xls’
data=pd.read_excel(inputfile) #读入数据
data[u’X1’][(data[u’X1’]<200) | (data[u’X1’]>250)]=None
data[u’X2’][(data[u’X2’]<300) | (data[u’X2’]>500)]=None
data[u’X3’][(data[u’X3’]<400) | (data[u’X3’]>700)]=None
#自定义列向量插值函数
#s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5
def ployinterp_column(s,n,k=5):
y=s[list(range(n-k,n))+list(range(n+1,n+1+k))] #取数
y=y[y.notnull()] #剔除空值
return lagrange(y.index,list(y))(n) #插值并返回插值结果
#逐个元素判断是否需要插值
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]: #如果为空即插值
data[i][j]=ployinterp_column(data[i],j)
data.to_excel(outputfile) #输出结果,写入文件
print (‘ssssssssss’)
print(type(data))