Pandas库的引用
Pandas是Python第三方库,提供高性能易用数据类型和分析工具。pandas基于Numpy实现,常与Numpy和Matplotlib一同使用。
Numpy VS Pandas:
Numpy | Pandas |
---|---|
提供基础数据类型 ndarray,可表达N维数组 | 基于ndarray的扩展数据类型Series,DataFrame |
关注数据的结构表达(注重维度) | 关注数据的应用表达(怎么更有效的提取这些数据以及运算) |
维度:数据间关系 | 数据与索引间关系 |
序列Series
Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
- 类似Array,List的一维物件
- 每个Series都可以透过其索引(index)进行存取
- 预设Series会以0到Series长度作为索引编号
创建方法
(1)从标量值创建:s=pd.Series([21000,18900,18000])
pd.Series([21000,18900,18000], index=[‘Iphone’,‘Edge S7’,‘HTC M1’])
(2)从字典类型创建:s=pd.Series({‘Iphone’:21000,‘Edge S7’:18900,‘HTC M1’:18000})
(3)从ndarray类型创建:n=pd.Series(np.arange(5))
n=pd.Series(np.arange(5), index=np.arange(9,4,-1))
基本操作
1、Series类型操作类似ndarray类型。
- 索引方法相同,采用[ ]。
- Numpy中运算和操作可用于Series类型。
- 可以通过自定义索引的列表进行切片。
- 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片。
Series类型是索引+值的一种类型,进行切片等运算得到的还是Series类型。但是选择一个值得到的就不是Series类型,而是一个值。
2、Series类型操作类似Python字典类型。
- 通过自定义索引访问
- 保留字in操作
- 使用.get()方法
3、Series类型对齐操作
Series类型在运算中会自动对齐不同索引的数据。
4、Series类型的name属性
Series对象和索引都可以有一个名字,存储在属性.name中。
5、Series类型的修改
Series对象可以随时修改并即刻生效。
Series是一维带“标签”数组。基本操作类似ndarray和字典,根据索引对齐。
DataFrame
DataFrame是一个表格型的数据类型,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame常用于表达二维数据,但可以表达多维数据。可以理解为二维带“标签”数组。
DataFrame可以通过类似字典的方式或者.columnn