python 中用pandas处理Excel文件

最新推荐文章于 2024-07-24 17:01:10 发布

samoyan

最新推荐文章于 2024-07-24 17:01:10 发布

阅读量7.9k

点赞数 1

文章标签： python pd

本文链接：https://blog.csdn.net/baoyan2015/article/details/53320762

版权

import pandas as pd
import numpy as np
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df=pd.DataFrame(d)
print df
mean=df.mean()
print mean
#可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：
#通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：
dates=pd.date_range('20161120',periods=6)
print dates

df1=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
print df1
#通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame：
df2=pd.DataFrame({'A':1.,'B':pd.Series(1,index=list(range(5)),dtype='float32'),'C':pd.Timestamp('20161124'),'D':np.array([3]*5,dtype='int32'),'E':pd.Categorical(['test','train','test','train','test']),'F':'foo'})
print df2

# 查看frame中头部和尾部的行：
print df1.tail(1)

print df1.head(3)

# 显示索引、列和底层的numpy数据：
print df2.index

print df2.columns

print df2.values


#describe()函数对于数据的快速统计汇总：
print df1.describe()

#对数据的转置：
print df1.T

#按轴进行排序
print df1.sort_index(axis=1,ascending=False)

#按值进行排序
print df1.sort(columns='B')


# 选择一个单独的列，这将会返回一个Series，等同于df.A：

print 'df1[A]'+'\n',df1['A']

#通过[]进行选择，这将会对行进行切片

print 'df1[0:3]'+'\n',df1[0:2],'\n'

#使用标签来获取一个交叉的区域
print df1.loc[dates[0]],'\n\n'

#通过标签来在多个轴上进行选择
print df1.loc[dates[0:2],['C','A']]

 处理缺失数据（Missing data）9.1 pandas使用浮点值NaN（Not a Number）表示浮点和非浮点数组中的缺失数据。
9.2 NA处理办法
    dropna      根据各标签值中是否存在缺失数据对轴标签进行过滤，可通过阀值调节对缺失值的容忍度
    fillna      用指定的或插值方法(如ffil或bfill)填充缺失数据
    isnull      返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值/NA，该对象的类型与源类型一样
    notnull     isnull的否定式