一、使用指引
-
构建
a.直接使用NumPy提供的ufunc
b.使用 apply 应用自定义函数到 DataFrame的对象的 每一行/每一列 上
c.使用 applymap 应用自定义函数到 DataFrame的对象的 每个元素上 -
排序
a. 索引排序 sort_index()
b. 值排序 sort_values(by="列名")
- 层级索引
a.选层: a.1选取外层 a.2选取指定外层的指定内层 a.3 选取所有外层的指定内层
b.交换分层 swaplevel
c.排序分层sortlevel
- 数据重构
a.将层级索引的Series对象 重构为 DataFrame 对象
b.将DataFrame对象 重构为 有层级索引的Series对象
c.将行和列索引互相调换
- 统计计算与描述
在这里插入代码片
- 多表关联
a.默认使用 同名且唯一的 列名做为外键进行关联
b.如果有多个同名列,必须通过 on 参数指定某个列做为外键进行关联
c.如果没有同名的列,可以分别通过 left_on 和 right_on 指定左表和右表的外键进行关联
d.默认结果为内连接,可以通过how指定连接方式
e.通过 suffixes 参数 处理关联后的重名列情况(指定添加后缀区分,默认会添加后缀_x 和 _y)
f.通过 left_index 和 right_index 使用左表和右表的 行索引做为外键进行关联
-
数据合并
7.1 Series对象
a.多个Series对象 索引一致的情况
b.多个Series对象 索引不一致的情况
7.2 DataFrame对象
a.多个DataFrame对象进行合并,注意索引是否一致 -
pandas分组
8.1Pandas的groupby分组方法
8.2 常用的分组方式 groupby()
a.对数据集所有列 按 指定分组依据 进行分组
b. 对数据集指定列 按 指定分组依据 进行分组
c. 对数据集指定的多列 按 指定的分组依据 进行分组
d.对数据集 按 指定的多个分组依据 进行分组(会产生层级索引的Series/DataFrame对象)
8.3 不常用的分组方式(默认提供的分组方式不满足 生产环境需求)
a.使用 自定义列 进行分组
b.使用 自定义字典 进行分组
- Pandas 分组聚合后 的 多表关联和合并
a. 通过merge() 对分组聚合后的数据表 和 原表进行关联
b. transform() 接收聚合函数做为参数,运算结果默认和原表形状一致,直接参与concat合并
c. groupby.apply() 可以传入自定义函数进行运算,并将结果自动合并到一起
- Pandas的聚合(agg)
a. 使用Pandas提供的内置函数做聚合运算
b. 通过agg() 方法传入自定义函数 聚合运算
b.1 传入自定义函数/Pandas内置函数 进行聚合运算
b.2 可以同时应用多个聚合函数
b.3 可以同时应用多个聚合函数(默认使用函数名做为列名),也可以再修改列名
b.4 可以对不同的列使用不同的聚合函数