pandas库的函数令人眼花缭乱,现实中的复杂问题难免使人手足无措。如果你刚开始使用pandas,遇到报错是很正常的,即使正确地进行了修复,下次遇到类似的问题时你可能已经遗忘了先前的解决方案,这样的情况听上去令人有些沮丧。因此推荐你阅读《pandas数据处理与分析》,本书前 3 个部分划分为“1+4+4”的模块结构, 即“pandas 基础”+ “4 类 pandas 操作”+“4 类 pandas 数据”,在每个模块中总结了函数之间的逻辑关系,从而展示出 数据处理的宏观体系。除了数据处理,还要对数据进行分析,因此在先前的结构之上,读者还应 该掌握 3 个问题的解决方案,即“怎么分析”“怎么处理”“怎么加速”,这对应“数据观测”“特 征工程”和“性能优化”这 3 个知识模块。
数据处理与分析是实战型任务,读者需要通过一些高质量的练习来巩固所学知识。因此, 本 书配备了一定数量的习题,这些习题能够帮助读者理解、强化和拓展书中介绍的内容。
pandas数据处理与分析
《pandas数据处理与分析》(耿远昊)【摘要 书评 试读】- 京东图书item.jd.com/13268767.html正在上传…重新上传取消
实战式pandas教程,梳理pandas中常用的函数,结合大量代码讲解理论知识,展示数据处理的宏观体系,提供高质量的练习,帮助读者理解、强化和拓展所学知识。
基于Pandas官方推荐中文教程Joyful Pandas,实战式Pandas教程“熊猫书”。
本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
熊猫书特色展示
学练结合,设置丰富的代码和习题
便于实战,配套资源
业内推荐
pandas是Python数据科学生态中一个核心的第三方库。使用pandas,我们能够快捷、高效地解决现实中各类与数据相关的问题。本书全面讲解了基于pandas的数据处理与分析技术,理论与实践相结合,是学习pandas的优秀教程。
——张日权 华东师范大学经济与管理学部统计学院院长,教授、博士生导师
Python作为数字经济时代最受欢迎的编程语言之一,正成为广大有志于投身数据科学领域的青年学子必学的技术。“Joyful Pandas”是Datawhale社区的开源项目,也是pandas官方目前唯一推荐的中文教程,本书在该教程的基础上进一步完善,强化理论与实践的结合,对Python初学者和进阶者均有裨益。
—— 陈海强 厦门大学王亚南经济研究院教授、博士生导师
数据分析能力正逐步成为 数字化发展浪潮中学习者应具备的基本技能。本书分为“基础知识”“4类操作”“4类数据”和“进阶实战”四大部分,结合简洁易懂的代码示例,涵盖pandas的所有核心操作与特性,非常适合数据分析人员自学。
——黄鹂强 浙江大学数据科学系教授、博士生导师
目标读者
本书并不要求读者对数据科学或数据分析有先验认识,只需具备基本的 Python 语法知识。本书也适用于有一些 pandas 基础且想要系统学习数据处理与分析方法的读者。对于已经对 pandas 和数据科学有一定了解的读者,阅读本书也能够起到巩固和拓展知识的作用。
内容概览
本书分为基础知识(第 1 章~第 2 章)、4 类操作(第 3 章~第 6 章)、4 类数据(第 7 章~第 10 章)和进阶实战(第 11 章~第 13 章)4 个部分。
第一部分包含 Python 基础、NumPy 基础和 pandas 基础。其中,Python 基础回顾推导式、匿 名函数和打包函数的概念与应用;NumPy 基础包含常见的数组操作, 如构造、变形、切片、广播
机制以及常用函数。pandas 基础包含文件的读取和写入、基本数据结构、常用基本函数以及窗口 对象。
第二部分介绍索引、分组、变形和连接这 4 类操作。其中,第 3 章涵盖单级索引、多级索引 和常用索引方法;第 4 章介绍分组模式及其对象的基本概念、聚合函数的使用方法、变换函数和 过滤函数的用法,以及跨列分组的相关内容;第 5 章讨论长宽表的变形和其他变形方法;第 6 章 涉及关系连接的基本概念、常用关系连接函数和其他连接函数等。
第三部分介绍缺失数据、文本数据、分类数据和时间序列数据这 4 类数据。其中,第 7 章涉 及缺失数据的四大操作—统计、删除、填充、插值,以及对 Nullable 类型的详细解读;第 8 章 涵盖 str 对象、正则表达式基础、文本处理的5 类操作—拆分、合并、匹配、替换、提取,以及 常用字符串函数;第 9 章涉及 cat 对象、有序类别以及区间类别;第 10 章涵盖时间戳、时间差、 日期偏置和时间序列操作的内容。
第四部分包含数据观测、特征工程和性能优化的内容。第 11 章介绍可视化的基本方法以及数 据观测的一般思路。第 12 章介绍单特征构造、多特征构造和特征选择的常用方法。第 13 章介绍 pandas 代码编写的注意事项、基于多进程的加速方法、基于 Cython 的加速方法以及基于 Numba 的加速方法。