DataFrame
使用Pandas库时,需提前引用:
import pandas as pd
Pandas库中的主要函数和操作:
- 读取数据:a = pd.read_csv('csv文件‘’)
- 数据类型:
- a的类型:type(a):DataFrame
- a中元素包含的数据类型:a.dtypes:int,float,object,datatime,bool
- 显示
- 头几行数据:a.head() 默认显示5行,可在()中设定显示的行数
- 尾几行数据:a.tail()
- 结构:a.shape()
- 抽取数据
- 行数据:a.loc[行号]
- 列数据:a[“列名”]
- 具体数据:a.loc[行号, “列名”]
- 将所有列名以列表形式输出:a.columns.tolist()
- 设定索引:a.set_index('索引名‘, drop = True)
- True:原索引不能使用
- False:原索引也能使用
- 计算
- 相同维度的dataframe进行计算:对应位置进行相应的操作
- 不同维度的dataframe进行计算:分别计算
- 均值:a.mean()
- 对应列的最大值:a["列名“”].max()
- 可进行新建列并赋值的操作
- 排序:a.sort_values(“列名”, inplace = True, ascending =True)
- inplace:是否在原dataframe上操作
- ascending:升序还是降序排列
- 根据排序结果重新设置索引:a.reset_index(drop = True)
- 缺失值
- 判断:a.isnull()
- 去除:a.dropa(axis = 0, subset = “列名”)
- 两列数据之间的关系:a.pivot_table(index = “列名1”, value = “列名2”, aggfun)
- index:基准
- value:关系值
- aggfun:关系函数,默认为np.mean,可设置为np.sum等
- 自定义函数:a.apply(函数名)
Series
使用前从Pandas库中引用Series:
from pandas import Series
- DataFrame由Series构成,DataFrame中每一行(列)都是一个Series
- Series由ndarray构成,因此Pandas库以Numpy库为基础,可使用其大部分操作
- 排序:
- sorted()
- reindex:类似于DataFrame中的reset_index
- sort_index:根绝索引排序
- sort_values:根据值排序
- 计算
- 相同维度的Series:对应位置进行相应的操作
- 不同维度的Series:分别计算