pandas库 是基于 Numpy 库的,它可以对数据进行导入、清洗、处理、统计和输出可以说,pandas 库就是为数据
分析而生的。
pandas中最常见的就是用Series和Dataframe来产生数据。
一、 series
series可以看成是一个定长有序字典。可以用下面的方式生成数据。
data={
'name':'siry',
'age':18,
'sex':'man'
}
s3=pd.Series(data)
print(s3)
结果如下
也可以直接生成数组
s1=pd.Series([1,6.1,7,8],index=['1','2','3','4']) # 数组
print(s1)
其中 index表示行索引。如果不自己添加index,则pandas会默认添加索引,从0开始。
二、Dataframe
dataframe 则可以生成表格数据,下面为了说明二者的区别,将用同样的字典数据来分别生成series和dataframe。
data1={
'year':[2015,2016,2017,2018],
'income':[12000,15000,18000,20000],
'pay':[2000,3000,4000,50000]
}
df1=pd.DataFrame(data1)
df2=pd.Series(data1)
左图是df1,右图是df2的结果。
三、一些简单性质
直接看注释
df3=pd.DataFrame(np.arange(12).reshape((3,4)),index=['a','b','c'],columns=[1,2,3,4])
# 属性 df1.index df1.values df1.describe() df1.T
# 排序
df3.sort_index(axis=1)
df3.sort_values(by=3) # 按照列的顺序进行排序 ‘3’是索引