pandas 的核心是 Series 和 DataFrame 两大数据结构,数据分析相关的所有事务都是围绕着这两种结构进行的。其中,Series 数据结构用于存储一个序列的一维数组,而 DataFrame 数据结构则用于存储复杂数据的二维数据结构。
虽然这些数据结构不能解决所有的问题,但它们为大多数应用提供了有效且强大的工具,就简洁性而言,理解和使用它们都很简单。此外,很多更为复杂的数据结构都可以追溯到这两种结构。本节教程就对这两种结构中的 Series 重点介绍。
Series 是一种类似于一维数组的对象,它是由一组数据(可以是 NumPy 中任意类型的数据)以及一组与之相关的数据标签组成的。Series 对象的内部结构是由两个相互关联的数组组成的,其中用于存放数据(即值)的是 value 主数组,主数组的每个元素都有一个与之相关联的标签(即索引),这些标签存储在另外一个叫作 Index 的数组中。
Series 的表现形式为:索引在左边,值在右边。例如,Series 对象 [2,4,-3,7] 的内部结构如图 1 所示。
图 1:Series 内部结构
1. 创建 Series 对象
1) 通过 Series() 构造函数创建
创建 Series 对象的 Series() 构造函数如下:
pandas.Series(data[, index])
函数中的参数说明如下:
- data 是输入给 Series 构造器的数据,它可以是 NumPy 中任意类型的数据;
- index 是 Series 对象中数据的标签(即索引)。
创建过程:调用 Series() 构造函数,把要存放在 Series 对象中的数据以数组形式传入,就能创建一个 Series 对象。例如,在 Jupyter Notebook 下输入下列代码:
In [1]: import pandas as pd In [2]: se1 = pd.Series([2,4,-3,7])
此代