其实pandas 参与数据清洗跟数据库SQL很相似,只是pandas 在计算速度上较SQL会快很多也灵活很多。
1、导入导出
略
2、merge ,concat
merge 相当于 join
concat 相当于 union
3、groupby
分组,常跟聚合函数以及窗口函数一起使用,
注意:聚合函数使用的时候,之后一般需要merge,因为聚合之后行数变少
4、rank
一般配合 groupby 使用,不配合 groupby也可使用(就是整个为一组)
排序支持各种形式的排序,比如从小到大,比如当前行,从小到大排序有多种形式,比如:
idx | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
val | 2 | 3 | 3 | 5 | 1 | 7 |
min | 2 | 3 | 3 | 5 | 1 | 6 |
max | 2 | 4 | 4 | 5 | 1 | 6 |
avg | 2 | 3.5 | 3.5 | 5 | 1 | 6 |
5、agg
聚合函数的用法,可以进行多列输出
6、apply
用于对 dataframe 行列数据进行计算