前言:
python在处理百万数据时的效率那是没得说,速度很快。本文主要讲一些使用pandas对数据进行截取,或者说根据自己的需要,选择自定义的数据的使用。可能并不是完整代码。
代码:
import pandas as pd
data=pd.read_csv("data2.csv")
#记数统计
a=data.ix[:,0] #ix截取
b=a.value_counts()
data=data[(data[u'class']=='A')]#class为A的数据块
data['PL']=(data.result1/2)#构造新列
data5=data[['As_of_Year','Agency_Code']] #截取数据中的两列成为数据块
data=d[(d[u'Loan_Amount_000']>0)& (d[u'Loan_Amount_000']<=4000)]#截取值在某一范围内的数据块
data2=data[(data[u'C']>data[u'D'])] #两列的值进行比较的截取
#----------------pandas存储---------------
dataframe = pd.DataFrame(list)
dataframe.to_csv(resultfile,mode='a',index=False,encoding='utf-8',header=False)
#-----------------查看分布情况-----------------
import matplotlib.pyplot as plt
plt.hist(d.Loan_Amount_000) #用图看某一列一些分布情况这个列一般是float类型
plt.show()
#--------去除空值数据------
data.dropna()
pandas非常好用尤其是处理海量数据。