Pandas 提供了方便的类表格的统计操作和类 SQL 操作,使之可以方便地做一些数据预处理工作。Pandas 可以完成以下工作:
(1)索引对象:包括简单的索引和多层次的索引
(2)引擎集成组合:用于汇总和转换数据集合
(3)日期范围生成器以及自定义日期偏移
(4)输入工具和输出工具:从各种格式的文件中加载表格数据,以及从 PyTables/HDF5格式中保存和加载 Pandas 对象。
(5)标准数据结构的“稀疏”形式:可以用于存储大量缺失或者大量一致的数据。
(6)移动窗口统计:如滚动平均值、滚动标准偏差等。
Pandas 提供了两种主要的数据结构: Series 与 DataFrame。两者分别适用于一维和多维数据。
Series
Series 类似于一维数组与字典的结合,是一个有标签的一维数组,标签在 Pandas 中有对应的数据类型 index。
Series 的创建
Series 创建时可以接收多种输入,包括list、ndarray、dict甚至标量。index 参数可以选择性地传入。Series 对象输出时,每一行为 Series 中的一个元素,左侧为索引,右侧为值。
import pandas as pd
from pandas import DataFrame, Series
obj_a = Series([1,2,3,4])
print(obj_a)
Series 的访问
Series 既像一个 ndarray ,同时也像一个固定大小的 dict,所以可以通过 iloc 和 loc 函数对 Series 进行访问。此外,可以直接通过类似数组和类似属性的方式对其进行访问。
Series 的操作
对 ndarray 可以进行的操作对 Series 可以同样进行,但由于索引的存在,在操作时存在数组对齐的问题。
Series 的 name 属性
Series 对象的索引与值可以分别通过 index 与 values 属性获取。
import pandas as pd
from pandas import DataFrame, Series
obj_a = Series([1,2,3,4])
print(obj_a)
print(obj_a.index)
print(obj_a.values)
DataFrame
DataFrame 是有标签的二维数组,类似于一个表格或 SQL 中的 table , 或是一个Series 对象的 dict。分为行索引 (index) 和列索引 (columns)。
DataFrame 的创建
DataFrame 创建时可以接收多种输入,包括一维的 ndarray、 list、dict或 Series;二维的ndarray,一个Series,其他的 DataFrame 等。创建 DataFrame 时,行索引和列索引可以指定,若没有明确指出,默认从 0 开始。对于通过 Series 的 dict 创建 DataFrame 的情况,若指定 index ,则会丢弃未与指定 index 相匹配的数据。
后面太长了就不继续记了,直接从第六章数据分析算法开始。