pandas的使用人群
Pandas对数据的处理是为数据分析服务的,它所提供的各种数据处理方法、工具是基于数理统计学的,包含了日常应用中的众多数据分析方法。我们学习它不仅要掌控它的相应技术,还要从它的数据处理思路中学习数据分析的理论和方法。
特别地,如果你想要成为数据分析师、数据产品经理、数据开发工程师等与数据相关的工作者,学习Pandas能让你深入数据理论和实践,更好地理解和应用数据。
Pandas可以轻松应对白领们日常工作中的各种表格数据处理需求还应用在金融、统计、数理研究、物理计算、社会科学、工程等领域Pandas可以实现复杂的处理逻辑,这些往往是Excel等工具无法完成的,还可以自动化、批量化,免去我们在处理相同的大量数据时的重复工作。
Pandas可以实现非常震撼的可视化效果,它对接众多令人赏心悦目的可视化库,可以实现动态数据交互效果以上这些强大的功能,在本书后面的学习中你会有所体会。
Pandas常用的基本功能
Pandas常用的基本功能如下:
- 从Excel、CSV、网页、SOL、剪贴板等文件或工具中读取数据:
- 合并多个文件或者电子表格中的数据,将数据拆分为独立文件:
- 数据清洗,如去重、处理缺失值、填充默认值、补全格式、处理极端值等;
- 建立高效的索引;
- 支持大体量数据;
- 按一定业务逻辑插入计算后的列、删除列;
- 灵活方便的数据查询、筛选;
- 分组聚合数据,可独立指定分组后的各字段计算方式
- 数据的转置,如行转列、列转行变更处理;
- 连接数据库,直接用SOL查询数据并进行处理
- 对时序数据进行分组采样,如按季、按月、按工作小时,也可以自定义周期,如工作日;
- 窗口计算,移动窗口统计、日期移动等:
- 灵活的可视化图表输出,支持所有的统计图形;
- 为数据表格增加展示样式,提高数据识别效率。