@R星校长
第1
关:了解数据处理对象–Series
Pandas
是为了解决数据分析任务而创建的,纳入了大量的库和标准数据模型,提供了高效地操作大型数据集所需的工具。
对于Pandas
包,在Python
中常见的导入方法如下:
from pandas import Series,DataFrame
import pandas as pd
Pandas中的数据结构
Series
:一维数组,类似于Python
中的基本数据结构list
,区别是Series
只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。就像数据库中的列数据;
DataFrame
: 二维的表格型数据结构。很多功能与R
中的data.frame
类似。可以将DataFrame
理解为Series
的容器;
Panel
:三维的数组,可以理解为DataFrame
的容器。
了解Series
为了开始使用Pandas
,我们必需熟悉它的两个重要的数据结构:Series
和DataFrame
。虽然它们不是每一个问题的通用解决方案,但可以提供一个坚实的,易于使用的大多数应用程序的基础。
Series
是一个一维的类似的数组对象,包含一个数组的数据(任何NumPy
的数据类型)和一个与数组关联的数据标签,被叫做索引 。最简单的Series
是由一个数组的数据构成:
In [1]:obj=Series([4,7,-5,3])
In [2]:obj
Out[2]:
0