学习pandas，应该选择哪本书进行学习？

人邮异步社区

于 2022-07-30 19:57:20 发布

阅读量2.4k

点赞数

文章标签： pandas python 学习

本文链接：https://blog.csdn.net/epubit17/article/details/126076889

版权

pandas库的函数令人眼花缭乱，现实中的复杂问题难免使人手足无措。如果你刚开始使用pandas，遇到报错是很正常的，即使正确地进行了修复，下次遇到类似的问题时你可能已经遗忘了先前的解决方案，这样的情况听上去令人有些沮丧。因此推荐你阅读《pandas数据处理与分析》，本书前 3 个部分划分为“1+4+4”的模块结构，即“pandas 基础”+ “4 类 pandas 操作”+“4 类 pandas 数据”，在每个模块中总结了函数之间的逻辑关系，从而展示出数据处理的宏观体系。除了数据处理，还要对数据进行分析，因此在先前的结构之上，读者还应该掌握 3 个问题的解决方案，即“怎么分析”“怎么处理”“怎么加速”，这对应“数据观测”“特征工程”和“性能优化”这 3 个知识模块。

数据处理与分析是实战型任务，读者需要通过一些高质量的练习来巩固所学知识。因此，本书配备了一定数量的习题，这些习题能够帮助读者理解、强化和拓展书中介绍的内容。

pandas数据处理与分析

《pandas数据处理与分析》(耿远昊)【摘要书评试读】- 京东图书item.jd.com/13268767.html正在上传…重新上传取消

实战式pandas教程，梳理pandas中常用的函数，结合大量代码讲解理论知识，展示数据处理的宏观体系，提供高质量的练习，帮助读者理解、强化和拓展所学知识。

基于Pandas官方推荐中文教程Joyful Pandas，实战式Pandas教程“熊猫书”。

本书共包含13章，第一部分介绍NumPy和pandas的基本内容；第二部分介绍pandas库中的4类操作，包括索引、分组、变形和连接；第三部分介绍基于pandas库的4类数据，包括缺失数据、文本数据、分类数据和时间序列数据，并介绍这4类数据的处理方法；第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色，每章的最后一节为习题，同时每章包含许多即时性的练习（练一练）。读者可通过这些练习将对数据科学的宏观认识运用到实践中。

熊猫书特色展示

学练结合，设置丰富的代码和习题

便于实战，配套资源

业内推荐

pandas是Python数据科学生态中一个核心的第三方库。使用pandas，我们能够快捷、高效地解决现实中各类与数据相关的问题。本书全面讲解了基于pandas的数据处理与分析技术，理论与实践相结合，是学习pandas的优秀教程。
——张日权华东师范大学经济与管理学部统计学院院长，教授、博士生导师

Python作为数字经济时代最受欢迎的编程语言之一，正成为广大有志于投身数据科学领域的青年学子必学的技术。“Joyful Pandas”是Datawhale社区的开源项目，也是pandas官方目前唯一推荐的中文教程，本书在该教程的基础上进一步完善，强化理论与实践的结合，对Python初学者和进阶者均有裨益。
—— 陈海强厦门大学王亚南经济研究院教授、博士生导师

数据分析能力正逐步成为数字化发展浪潮中学习者应具备的基本技能。本书分为“基础知识”“4类操作”“4类数据”和“进阶实战”四大部分，结合简洁易懂的代码示例，涵盖pandas的所有核心操作与特性，非常适合数据分析人员自学。
——黄鹂强浙江大学数据科学系教授、博士生导师

目标读者

本书并不要求读者对数据科学或数据分析有先验认识，只需具备基本的 Python 语法知识。本书也适用于有一些 pandas 基础且想要系统学习数据处理与分析方法的读者。对于已经对 pandas 和数据科学有一定了解的读者，阅读本书也能够起到巩固和拓展知识的作用。

内容概览

本书分为基础知识（第 1 章～第 2 章）、4 类操作（第 3 章～第 6 章）、4 类数据（第 7 章～第 10 章）和进阶实战（第 11 章～第 13 章）4 个部分。
第一部分包含 Python 基础、NumPy 基础和 pandas 基础。其中，Python 基础回顾推导式、匿名函数和打包函数的概念与应用；NumPy 基础包含常见的数组操作，如构造、变形、切片、广播
机制以及常用函数。pandas 基础包含文件的读取和写入、基本数据结构、常用基本函数以及窗口对象。

第二部分介绍索引、分组、变形和连接这 4 类操作。其中，第 3 章涵盖单级索引、多级索引和常用索引方法；第 4 章介绍分组模式及其对象的基本概念、聚合函数的使用方法、变换函数和过滤函数的用法，以及跨列分组的相关内容；第 5 章讨论长宽表的变形和其他变形方法；第 6 章涉及关系连接的基本概念、常用关系连接函数和其他连接函数等。

第三部分介绍缺失数据、文本数据、分类数据和时间序列数据这 4 类数据。其中，第 7 章涉及缺失数据的四大操作—统计、删除、填充、插值，以及对 Nullable 类型的详细解读；第 8 章涵盖 str 对象、正则表达式基础、文本处理的5 类操作—拆分、合并、匹配、替换、提取，以及常用字符串函数；第 9 章涉及 cat 对象、有序类别以及区间类别；第 10 章涵盖时间戳、时间差、日期偏置和时间序列操作的内容。

第四部分包含数据观测、特征工程和性能优化的内容。第 11 章介绍可视化的基本方法以及数据观测的一般思路。第 12 章介绍单特征构造、多特征构造和特征选择的常用方法。第 13 章介绍 pandas 代码编写的注意事项、基于多进程的加速方法、基于 Cython 的加速方法以及基于 Numba 的加速方法。