Pandas
Pandas的数据结构,主要包含两个,Series和Dataframe
Series
Series 是一种一维标记的数组型对象,能够保存任何数据类型,包含数据和索引。
创建方法:
- 使用列表 s1 = pd.Series([1,2,3,4])
- 使用数组s1 = pd,Series(np.arange(1,10))
Series的首字母大写
- 可以指定索引s2 = pd.Series([1,2,3,4],index=[“a”,“b”,“c”,“d”]) ,但索引长度必须相同
还可以通过字典来创建,字典的顺序可以通过index参数来指定:
Series的基本用法
isnull()
判断是否为空notnull()
判断是否不为空- 可以使用下标进行取数,如果取多个,要用中括号括起来,逗号分开
- 可以使用标签名进行取数
- 可以使用下标或者标签进行切片取数(下标不包含末端,标签切片包含)
- 可以使用布尔索引取数
- 可以为Series对象设置对象名
s1.name = 'temp'
- 可以为Series对象设置索引名称
s1.index.name ='year'
- - 可以通过
head()
方法读取头部数据s1.head(3)
,默认选择前五行,可以指定行数 - 可以通过
tail()
方法读取尾部数据
DataFrame
DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以使不同类型的值。
DataFrame既有行索引,也有列索引
字典构造DataFrame
- 通过列表构造的字典来构造DataFrame:
- 通过Series构成的字典构造dataframe
- 通过字典嵌套字典构造dataframe
列表构造DataFrame
- 用二维数组来构造DataFrame
- 用字典构成的列表来构造DaraFrame
- Series构成的列表来构造DataFrame
DataFrame的基本用法
- 转置
pd1.T
- 通过列索引获取数据(Series)类型
- 增加列数据
- 删除列
del(pd1['b'])