Python 进阶视频课 - 4. Pandas 下

这是一篇关于Python进阶的博客,重点介绍了Pandas库在数据分析和可视化的应用。课程详细讲解了Pandas的单维整体分析、多维分组分析、多维透视分析和多维交叉分析,以及如何使用Pandas进行数据可视化的基础操作。此外,还提到了数据处理的重要环节——数据清洗和数据转换。
摘要由CSDN通过智能技术生成

这是 Python 进阶课的第四节 - Pandas ,进阶课的目录如下:

  1. NumPy 上

  2. NumPy 下

  3. Pandas 上

之前基础版的 11 节的目录如下:

  1. 编程概览

  2. 元素型数据

  3. 容器型数据

  4. 流程控制:条件-循环-异常处理

  5. 函数上:低阶函数

  6. 函数下:高阶函数

  7. 类和对象:封装-继承-多态-组合

  8. 字符串专场:格式化和正则化

  9. 解析表达式:简约也简单

  10. 生成器和迭代器:简约不简单

  11. 装饰器:高端不简单

本次课程主要从数据分析、数据可视和数据处理来玩转 Pandas:

数据分析

Pandas 被公认为数据分析 (data analysis) 的神器,从四方面来讲解:

 

  • 单维整体分析:对每个特征下的值做整合求指标

  • 多维分组分析:先在一个或多个特征下分组,再对每组中其他特征下的值做整合求指标

  • 多维透视分析:透视表将源表的若干列分组作为终表的“支点”,然后在新行和新列的维度上做整合。

  • 多维交叉分析:交叉表是透视表的特例,其默认的整合函数是计算个数或频率。

两张图就把透视表 (pivot_table) 和交叉表 (crosstab) 讲的清清楚楚。


数据可视

数据可视 (data visualization) 是本次课程第二部分的内容,提到画图那么一定会提到 matplotlib 和 seaborn 这两个最常用的工具包。但在 Pandas 直接使用 

  • Series.plot()

  • DataFrame.plot()

可以快速可视化数据。注意,画出来的图不会很好看而且含信息量也不全,但能快速的展示出数据的核心关系。如要继续个性化图表,那么才使用 matplotlib, seaborn 甚至 bokeh, plotly, pyecharts 和 altair 等。


数据处理

最后一部分内容是数据处理 (data munging),前面所有的数据都是经过处理过而变得“干净”,但在实际工作做数据一开始都是“杂乱”的,因此第一步都是要做处理,主要可以归纳成两大方面:

 

  • 数据清洗 (data cleansing):缺失值、离群值

  • 数据转换 (data transforming):编码、分组

付费用户(付 1 赠 1)可以获得:

  • 观看课程视频 (98 分钟)

  • Python 代码 (Jupyter Notebook)

Jupyter Notebook

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值