第6章 结构化数据分析工具Pandas
作为Python科学计算的基础软件包,NumPy已经足够强大,却不够完美,因为NumPy不支持异构列表格数据。异构列表格数据是指在一个二维数据结构中允许不同的列拥有不同的数据类型。尽管NumPy支持任意维度的数据结构,但在实际工作中,无论是传统软件开发领域还是机器学习领域,使用的数据大多数都是二维异构列表格数据。Pandas正是为处理此类数据而生的,它为处理和SQL或Excel表类似的异构列表格数据提供了灵活、便捷的数据结构,从而迅速成为Python 的核心数据分析支持库。
6.1 Pandas概览
Pandas是一个基于NumPy的分析结构化数据的工具集,NumPy为其提供了高性能的数据处理能力。Pandas被普遍用于数据挖掘和数据分析,同时也提供数据清洗、数据I/O、数据可视化等辅助功能。
6.1.1 安装和使用
Pandas可以使用pip命令直接安装,安装命令如下。如果默认的模块安装源下载速度慢,可以使用-i参数选择下载速度更快的清华、阿里、中科大等镜像源。
PS C:\Users\xufive> python -m pip install pandas
因为NumPy是Pandas的依赖包,