pandas 基本介绍
pandas是基于Numpy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,同时也提供大量能使我们快速便捷的处理数据的函数和方法。
import pandas as pd
pandas 基本数据结构
pandas 有两种常用的基本结构:
- Series
一维数组,与Numpy中的一维array类似;二者与Python基本的数据结构List也很相近。Series能保存不同种数据类型,字符串、Boolean值、数字等。 - DataFrame
二维的表格型数据结构,很多功能与R中的data.frame类似;可以将DataFrame 理解为Series的容器。
series 类型
一维Series可以用一维列表初始化:
s=pd.Series([1,3,5,np.nan,6,8])
print(s)
0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
默认情况下,Series的下标都是数字(可以使用额外参数指定),类型是统一的。可以使用index函数设置索引。
s.values #查看值
array([ 1., 3., 5.