前言
对于如何使用 R 来处理表格数据,相信你已经学习到很多了。
下面我们的重点是介绍如何在 Python 中处理表格型数据,提到 Python 数据处理,那就不得不说 pandas 了。
pandas 是 Python 数据处理的核心库,提供了快速、灵活、明确的数据结构,能够简单直接地处理结构性和关系型数据。
panda 适用于很多不同类型的数据:
具有不同类型的列的表格数据,如 Excel 和 SQL 表
有序和无序(不一定是固定频率)的时间序列数据
具有行和列标签的任意矩阵数据(同类型或异构数据)
任何其他形式的观察/统计数据集。数据实际上根本不需要标记就可以放置到 pandas 数据结构中
Pandas 主要的数据结构是 Series(一维)与 DataFrame(二维),使用这两种数据结构就足以应对金融、统计、社会科学、工程等领域里的大多数数据了。
相较于 R 语言的 data.frame,DataFrame 提供了更加丰富的功能。
Pandas 是基于 NumPy 开发的,可以与其它第三方科学计算库完美集成。
能够熟练使用 pandas,处理数据将是事半功倍的,它的种种优点就不一一介绍了,下面开始正题吧。
安装
如果你系统中安装的是 Anaconda 环境的话,会自动安装 pandas、numpy、matplotlib 等常用的数据科学相关的库。
如果没有使用 Anaconda 的话可以使用
pip install pandas
一般我是推荐使用 Anaconda 环境的,是真的方便。还不知道如何安装配置 Anaconda 的话,可以找到我前面的文章,里面有详细的讲解。
数据结构
本节,我们先开始介绍 pandas 的基础数据结构
当然啦,使用这个包肯定得先导入了,同时我们也会使用到 numpy 中的一些函数,标准的导入方式是
In [1]: import numpy as np
In [2]: import pandas as pd
1. Series
Series 是带标签的一维数组,可以存储任意数据类型,如整数、浮点数、字符串、Python 对象等类型的数据。轴标签称为索引(index),可以使用 pd.Series 函数来创建
>>> s = pd.Series(data, index=index)
其中,data 可以是
python 字典
多维数组
标量值(如 5)
index 是对应的标签列表。根据不同的数据类型,分为以下几种情况:
多维数组
当 data 是多维数组时