pandas主要数据对象为Series和DataFrame。
DataFrame
DataFrame表示一个表格,是一个经过排列的列表集。具有行和列的索引,所以可以采用分层索引表示高维数据。
可以将长度相同的字典或NumPy数组转换成为DataFrame,例如:
data={'a':[3,5,7],
'g':[4.6,24,56],
'b':['aaa','vbb','dde']}
frame=pd.DataFrame(data)
print(frame)
>> a b g
0 3 aaa 4.6
1 5 vbb 24.0
2 7 dde 56.0
DataFrame和Series一样,索引值会自动分配,并且DataFrame的列也进行了排序。如果设定了列的顺序,则列会按照设定顺序存储。例如:
frame=pd.DataFrame(data, columns=['a','g','b'])
DataFrame转换为字典dict
dataframe可以转换为嵌套的字典,例如:
dict1=dict(frame['b'])
dict2=dict(frame[['a','b']])
print(dict1)
print(dict2['a'][2])
>>{0: 'aaa', 1: 'vbb', 2: 'dde'}
>>7