pandas库建立在numpy之上,为python编程语言提供了易于使用的数据结构和数据分析工具
导入pandas模块
import pandas as pd
pandas数据结构:Series,能够保存任何数据类型的一维数组
DataFrame:可以储存不同数据类型的二维数组
I/O:读写到CSV文件
pd.to_csv('file.csv') #保存到.csv文件中
pd.read_csv('file.csv') #从.csv文件中读数据
I/O:读写到Excel文件
pd.to_excel('file.xlsx') #写操作
pd.read_excel('file.xlsx') #读操作
帮助代码
help(pd.Series.loc)
对SQL查询或数据库表进行读写
Read Sql()是一个关于read_sql_table()和read_sql_query()的便利包装器。
删除数据元素
df.drop([1],axis=0) #删除索引为1的一行数据
df.drop('Country',axis=1) #删除索引为Country的一列数据,axis=1
排序
df.sort_index() #按轴排序数组
df.sort_values(by='Country') #按按轴值排序
df.rank()
基本方法
df.shape #返回DataFrame的行列数
df.index #描述DataFrame的行索引
df.columns #描述DataFrame的列索引
df.info() #描述DataFrame的基本信息
df.count() #返回每一列对应的元素个数
操作
df.sum() #值之和
df.cumsum() #累积值和
df.min() #最小值
df.max() #最大值
df.idxmin() #最小索引值
df.idxmax() #最大索引值
df.describe() #汇总统计
df.mean() #平均值
df.median() #中位数
数据清洗