这是 Python 进阶课的第四节 - Pandas 下,进阶课的目录如下:
之前基础版的 11 节的目录如下:
本次课程主要从数据分析、数据可视和数据处理来玩转 Pandas:
数据分析
Pandas 被公认为数据分析 (data analysis) 的神器,从四方面来讲解:
单维整体分析:对每个特征下的值做整合求指标
多维分组分析:先在一个或多个特征下分组,再对每组中其他特征下的值做整合求指标
多维透视分析:透视表将源表的若干列分组作为终表的“支点”,然后在新行和新列的维度上做整合。
多维交叉分析:交叉表是透视表的特例,其默认的整合函数是计算个数或频率。
两张图就把透视表 (pivot_table) 和交叉表 (crosstab) 讲的清清楚楚。
数据可视
数据可视 (data visualization) 是本次课程第二部分的内容,提到画图那么一定会提到 matplotlib 和 seaborn 这两个最常用的工具包。但在 Pandas 直接使用
Series.plot()
DataFrame.plot()
可以快速可视化数据。注意,画出来的图不会很好看而且含信息量也不全,但能快速的展示出数据的核心关系。如要继续个性化图表,那么才使用 matplotlib, seaborn 甚至 bokeh, plotly, pyecharts 和 altair 等。
数据处理
最后一部分内容是数据处理 (data munging),前面所有的数据都是经过处理过而变得“干净”,但在实际工作做数据一开始都是“杂乱”的,因此第一步都是要做处理,主要可以归纳成两大方面:
数据清洗 (data cleansing):缺失值、离群值
数据转换 (data transforming):编码、分组
付费用户(付 1 赠 1)可以获得:
观看课程视频 (98 分钟)
Python 代码 (Jupyter Notebook)
Jupyter Notebook