Pandas库的介绍
- Pandas是Python中处理数据和分析数据非常好用的第三方库。
- Pandas是Python第三方库,提供高性能易用数据类型和分析工具。简单来说,Pandas提供了便于操作数据的数据类型与很多的分析函数和分析工具,使得数据分析变得非常容易操作。引用Pandas库:
import pandas as pd
(重命名为pd是一种约定俗成的规定)。Pandas是基于NumPy实现的,常与NumPy和Matplotlib一同使用。 - 实例:Pandas的简单使用
结果:import pandas as pd # 引入Pandas库的别名 d = pd.Series(range(20)) # 创建Series对象 print(d) # 打印
Series 是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引 - Pandas库主要提供了两个数据类型,即Series和DataFrame。Series相当于一维的数据类型,DataFrame相当于二维到多维的数据类型,这两个数据类型构成了Pandas的基础。基于上述这两个数据类型,Pandas提供了针对数据分析和操作的很多功能,各类操作有基本操作、运算操作、特征类操作、关联类操作。Pandas正是因为提供了这些操作以及对数据进行了很好的表示和封装,才使得数据分析和展示变得非常容易。
Pandas库的Series类型
- Series类型由一组数据及与之相关的数据索引组成。简单来说,Series是一维带“标签”数组。
索引与数据之间一一对应
实例:- 自动索引
- 自定义索引
- 自动索引
- Series类型可以由如下类型创建
- Python列表,index与列表元素个数一致。
- 标量值,index表达Series类型的尺寸。
- Python字典,键值对中的“键”是索引,index从字典中进行选择操作。
- Numpy库中ndarray,索引和数据都可以通过ndarray类型创建。
- 其他函数,range(函数等。
- 实例:
- 从标量值创建
- 从字典类型创建
- 从ndarray类型创建
- 从标量值创建
- Series类型的基本操作
-
Series类型包括index和values两部分。
实例:
两套索引并存的时候,默认使用自定义索引 -
Series类型的操作类似ndarray类型。
- 索引方法相同,采用
[]
。 - NumPy中运算和操作可用于Series类型。
- 可以通过自定义索引的列表进行切片。
- 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片。
- 实例
- 索引方法相同,采用
-
Series类型的操作类似Python字典类型。
- 通过自定义索引访问
- 保留字
in
操作 - 可以使用
.get()
方法 - 实例
-
- Series类型对齐操作
- Series + Series
实例:
Series类型在运算中会自动对齐不同索引的数据
- Series + Series
- Series类型的name属性
Series对象和索引都可以有一个名字,存储在属性.name
中。
实例:
- Series类型的修改
Series对象可以随时修改并即刻生效
实例:
Pandas库的DataFrame类型
- DataFrame类型由共用相同索引的一组列组成。
DataFrame是二维带“标签”数组。
DataFrame基本操作类似Series,依据行列索引。 - DataFrame类型就是一个表格型数据类型,每列值类型可以相同,可以不同,简单来说,DataFrame是有索引加多列数据构成。
- DataFrame既有行索引、也有列索引。
每一行的索引为index,每一列的索引为column
- DataFrame常用于表达二维数据,但也可以表达多维数据。
- DataFrame类型可以由如下类型创建
- 二维ndarray对象
- 由一维ndarray、列表、字典、元组或Series构成的字典
- Series类型
- 其他的DataFrame类型
- 实例:
- 从二维ndarray对象创建
- 从一维ndarray对象字典创建
- 从列表类型的字典创建
- 从二维ndarray对象创建