一、Pandas库

与我们之前用到的NumPy库以及我们之后会用到的Matplotlib等库一样,Pandas库也是一个被大家广泛使用的一个第三方库。大家主要用它来进行数据分析的操作,这也是为什么我们这门课要来学习它的原因之一。
在Pandas库中我们经常会跟它其中的两种数据类型打交道:Series和DataFrame。相比于我们上一章学习的数组,Series和DataFrame最明显的特点在于它们拥有行/列索引,这使得我们处理数据变得更方便。
二、DataFrame对象
我们变换一下讲解的思路,我们先来讲DataFrame对象。
DataFrame对象我们可以直观地理解为一张表格:

我们可以从上图看到,相较于光秃秃的只有数据本身的array类型来说,DataFrame类型额外拥有了行/列索引,这就给我们提供了额外的信息,也为我们之后处理数据带来了更多的便利。
三、Series对象
如果已经理解了DataFrame,那么Series对象就很容易理解了。Series对象可以看做是DataFrame对象的退化,它有且仅能有一列数据。如果我们把DataFrame的一列切出来,那么它就“退化”为了Series对象。
不过需要注意的是Series和“只有一列的DataFrame”对象还是有所不同的:

四、常用操作
0. 导入库
import pandas as pd
1. 创建DataFrame
形如:my_df = pd.DataFrame(数据本体, columns=列索引, index=行索引),其中数据本体应为二维数组(列表);列索引应为一维数组(列表);行索引应为一维数组(列表)。如:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



