1.基本数据结构
基本的数据结构Series和DataFrame。
DataFrame数据用Numpy的array保存,可通过DataFrame.values查看原始数据
DataFrame的每一行和每一列都是一个Series
(1)创建
pd.Series([4,2,3,4])
pd.DataFrame([np.random.randn(6,4),columns=list('ABCD'))
(2)访问
df.iloc[0]
df.A
df.ix['three']
df.shape(属性)
头几行和后几行
df.head(3)
df.tail(2)
访问行索引和列索引
df.index
df.columns
统计信息
df.describe()
相关系数与协方差:
cov,corr,corrwith。
(3)算数运算
自动对齐
(4)删除
删除列del
删除列或行drop
(5)修改
重新索引:reindex
插值处理:method
缺失值填充:fill_value
(6)函数应用和映射
行或列应用:frame.apply(f)
元素级应用:frame.applymap()
(7)缺失值处理
dropna
选项how,thresh
(8)层次化索引
unstack,stack,swaplevel,set_index,reset_index
2.数据排序
(1)名称排序
df.sort_index(axis=1,ascending=False)
(2)数值排序
df.sort_values(by='B')
3.数据访问
(1)访问行
df[3:5]
(2)访问列
df[['A','B','D']]
(3)某个元素
df.loc[3,'A']
df.iloc[3,0]
(4)布尔
df[df.C>0]
(5)添加
df['TAG']=['cat','dog','cat','cat','cat','dog']
(6)分组统计
df.groupby('TAG').sum()
(7)通过by选择一个或多个列排序
(8)排名
obj.rank()
选项average,min,max,first
4.时间序列
5.数据可视化
6.文件读写
(1)保存
df.to_csv()
(2)读取
pd.read_csv('data.csv',index_col=0)