Pandas —数据分析核心工具包
import pandas as pd
Series
1.Series 是一种带有标签的一维数组,可以保存任何数据类型,轴标签统称为索引
ar=np.random.rand(5)
s=pd.Series(ar)
s.index #### s的索引
s.values #### 数值 类型 ndarray
相比ndarray ,是一个自带索引index的数组 --->对应索引 + 一维数组
相比dict ,更像一个有序字典,索引原理与字典原理相似 key (index)---value
Series创建方法
1:由字典创建,字典的key就是index,values就是values
dic={’a‘:1,'b':2,'c':3}
s=pd.Series(dic)
2. 通过一维数组创建
ar=np.random.rand(5)
s=pd.Series(ar,index=['a','b','c','d','e']) ###index默认从0开始,指定index时必须和数据长度相同
3.通过标量创建
s=pd.Series(100,index=range(4))
Series 索引:
1.下标索引:
s=pd.Series(np.random.rand(5))
s[2]
2. 标签索引:
s=pd.Series(np.random.rand(5),index=['a','b','c','d','e'])
s['a'] ###选取一个标签
s[['a','b']] ###选取多个标签
Series 切片:
s[1:4] ###使用下标 [1,4)
s['a':'e'] ###使用标签['a', 'e']
3. 布尔值索引:
s>2 返回布尔值
s[s>2]
Series 数据查看:
s=pd.Series(np.random.rand(5))
s.head() ####默认查看前5条
s.tail()
Series 重新索引:
s=pd.Series(np.random.rand(5),index=['a','b','c','d','e'])
s.reindex([]) ####根据新的索引重新排序,当索引不存在时引入缺失值(fill_value=0) 缺失值重新填充为0
Series 对齐:
s=pd.Series(np.random.rand(5),index=['a','b','c','d','e'])
s1=pd.Series(np.random.rand(5),index=['a','f','c','d','g'])
s+s1 #####按照索引对齐,然后进行相加
Series 删除:
s=pd.Series(np.random.rand(5),index=['a','b','c','d','e'])
s.drop('e')
s.drop(['e','a']) ##inplace=False 不会改变原数据,返回副本
###inplace=True 会改变原数据
Series 添加:
s=pd.Series(np.random.rand(5),index=['a','b','c','d','e'])
s['f']=100
s2=s.append(s1)