Pandas 可以说是在 Python 数据科学领域应用最为广泛的工具之一。Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
对于使用 Python 进行数据分析来说,Pandas 几乎是无人不知,无人不晓的。
Pandas 是第三方库,需要单独安装才能使用:
pip install pandas -i https://pypi.doubanio.com/simple/
一般情况下,我们会像下面这样引入 pandas 模块:
import pandas as pd
将 Pandas 简写成 pd 几乎成了一种不成文的规定。因此,只要你看到 pd 就应该联想到这是 Pandas。
一、Pandas 数据结构
要使用 pandas,你首先得熟悉它的两个主要数据结构:Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。首先,我们来看看什么是