仅作记录过程,主要参考Pandas 中文
1.Pandas是什么
Pandas是Python的核心数据分析支持库,提供了明确的数据结构,是一个非常优秀的数据分析工具。
Pandas的主要数据结构是Series(一维数据)和DataFrame(二维数据)。其中,DataFrame是Series的容器,Series则是标量的容器
2.Pandas常用操作
import numpy as np
import pandas as pd
#使用列表生成Series,Pandas会默认生成整数索引
s = pd.Series([1,3,5,np.nan,6,8,10.5])
s
dates = pd.date_range('20211217',periods = 5) #以20211217作为开始日期,生成5个日期索引
print(len(dates))
print(type(dates))
dates
#生成DataFrame二维表格
# pd.DataFrame(data=None, index=None, columns=None)
#data:是位置参数,按照顺序传入,可以不用写data=,data指的是表格中的内容
#index:指定行标签
#columns:指定列标签
#可选关键字:dtype,默认dtype=None,用来指定DataFrame里成员的数据类型
df = pd.DataFrame(np.random.randn(len(dates),4), index=dates, columns=list('ABCD'))
df
#查看数据
df.head(3) #查看前3行数据
#df.head() #查看全部表格数据
#df.tail() #查看全部表格数据
#df.tail(3) #查看后3行
#查看表格行,列名称
print(df.index)
print(df.columns)
df.describe() #可以快速查看数据的统计摘要
#df.mean() #按列求均值
#df.sort_index(axis=1,ascending=False) #按轴排序,每一行从左到右由小到大
#df.sort_values(by='B') #按照B列进行排序,并扩展其他部分
#获取单列数据 #df['A']
df[1:4]
#进行切片,包含start,不包含stop。注意从0开始
#df['20211218':'20211221']
#包含该索引20211221所在行
#df.loc[dates[0]]
#df.loc[:,['A','B']] #获取A,B两列
df.iloc[2:4, 0:2]
#df.iloc[[1,2,4],[0,2]]
#df.iloc[1:3, :]
#df.iloc[:, 1:3]
#df.iloc[1, 1] #等价于df.iat[1, 1]
3.总结
Pandas还有很多强大的功能,自己在jupyter中测试了很多,没有都放到本篇文章中。重要的是理解DataFrame的创建,后续有用到,查询该链接 Pandas 中文