python学习---数据预处理(0)

# 数据整理与预处理


# 1.数据清洗

# 拉格朗日插值法 , 牛顿插值法( 多项式逼近 )
from __future__ import division
import numpy as np
import os
import matplotlib.pyplot as plt
from scipy.interpolate import lagrange  # 拉格朗日函数库
import pandas as pd
from pandas import DataFrame,Series
### 缺失值处理———拉格朗日插值法
inputfile = 'catering_sale.xls'
outputfile = 'sales.xls'
data = pd.read_excel(inputfile)
#print(data)
data[u'销量'][(data[u'销量']<400)|(data[u'销量']>5000)] = None #过滤异常值,将其变为空值

# 自定义列向量差值函数
# s为列向量,n为被插值的位置,k为取前后的数据个数,默认为5
def ployinterp_column(s,n,k=5):
    y = s[list(range(n-k,n))+list(range(n+1,n+1+k))]
    y = y[y.notnull()]
    return lagrange(y.index,list(y))(n)

# 逐个元素判断是否需要插值
for i in data.columns:
    for j in range(len(data)):
        if(data[i].isnull())[j]:
            data[i][j] = ployinterp_column(data[i],j)
#print(data)
data.to_excel(outputfile)

# 异常值处理

# 2.数据集合并
''''
pandas对象
-Merge方法:根据一个或多个键将不同dataframe中的行合并
-Concat方法:沿一条轴将对多个对象堆叠起来

'''

###dataframe合并
#1
df1 = DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})
df2 = DataFrame ({'key':['a','b','d'],'data2':range(3)})
print(df1)
print(df2)
# 合并
#print(pd.merge(df1,df2))
print(pd.merge(df1,df2,on = 'key')) # 指定键名进行合并

df3 = DataFrame({'lkey':['b','b','a','c','a','a','b'],'data1':range(7)})
df4 = DataFrame ({'rkey':['a','b','d'],'data2':range(3)})
print(pd.merge(df3,df4,left_on='lkey',right_on= 'rkey')) # 指定左键和右键

print(pd.merge(df1,df2,how= 'outer')) #指定连接方式为外连接,还有类似的左连接‘left’,右连接和默认连接

#print(pd.merge(df3,df4,on =['lkey','rkey'],how = 'outer'))
# 根据索引合并
print(pd.merge(df3,df4,how = 'outer',left_index= True,right_index = True))
# 类似的
print(df3.join(df4,how = 'outer'))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值