Pandas里有数据类型主要有三种:Series、DataFrame和Panel。
(一)Series
Series可以理解为一个一维的数组,只是index可以自己改动。创建的方法统一为pd.Series(data,index=)。Series可以通过三种形式创建:python的dict、numpy当中的ndarray(numpy中的基本数据结构)、具体某个数值。index赋值必须是list类型。
1.创建Series
(1)Python的dict创建:
s = pd.Series({‘a’=1,’b’=2,’d’=3},index = [‘a’,’d’,’c’,b’])
(2)numpy中的ndarray:
pd.Series(np.random.randn(5), index = list('ABCDE')
(3)具体某个值
s=pd.Series([5,4])
2.读取元素
通过索引读取:一种是通过index对应的标签;另一种就是通过绝对位置查看。
s = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
s[0]
输出:5.0
s[[4,3,1]]
输出:e 5.0
d 5.0
b 5.0
dtype: float64
s[s>1]
输出:a 5.0
b 5.0
c 5.0
d 5.0
e 5.0
dtype: float64
s[‘a’]
输出:5.0
(二)DataFramme
DataFrame是一个类似于表格的数据类型,如图:
1.创建
DataFrame可以理解为一个二维数组,统一的创建形式为:pd.DataFrame(data,columns=,index=),其中columns为列的索引,index为行的索引,data为数据。Data创建方式如下:
(1)将字典或者Series组合成列表进行创建
a = { 'a':1