pandas库可用作数据处理和数据分析,常用两种数据结构:Series和DataFrame。Series由一组数据和与之对应的数据标签(即索引)构成,DataFrame类似于数据库中表或者Excel中表格数据格式,既有行索引又有列索引,DataFrame可看作由多个Series构成,每个Series看成是DataFrame的一个列。
一.Series的创建
二.DataFrame创建
三.pandas数据读取和保存
1.csv文件和Excel文件的读取和保存
pd.read_csv(filename,encoding,dtype,nrows,sep,na_values,header=0)
此命令读取csv文件,filename是文件的存放路径和文件名,nrows指定读取前多少行,sep指定分隔符,na_values定义缺失值,header=0默认把第一行当做表头不读入数据
pd.read_excel(filename,encoding,dtype,sheet_name)
此命令读取excel文件,sheet_name指定工作簿中要打开的工作表名称,dtype指定打开后各字段的数据类型,以字典形式给出
2.mysql数据库文件读取和保存
读取:create_engine('mysql+pymysql://用户名:密码@IP:3306/数据库名')
保存:
四.数据增删改查
五.数据合并
六.数据排序、分组、聚合
七.基本统计量计算、透视表和交叉表函数
透视表:
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
注:data是原数据表,values是要计算的数值型字段,index是行分组键,columns是列分组键,aggfunc是聚合函数,fill_value为对缺失值的处理,margins是否需要总计,dropna是否删除缺失值
交叉表:
pd.crosstab(index, columns, values=None,rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)
注:normalize=‘columns’计算列百分比,normalize=‘index’计算行百分比
八.数据类型转换
九.层次化索引