上一节学习了Series相关的概念,这部分的知识是学习pandas另一数据结构:DataFrame的基础。
DataFrame是二维的、有标记的数据结构,它可以具有可能不同类型的列。
可以将其看做类似SQL表格,或者包含多个Series对象的字典。
DataFrame可接受数据类型
DataFrame可以接受多种数据输入:
-
由一维ndarray构成的字典, 列表, 字典, 或者是Series
-
二维的ndarray
-
单独的Series
-
其它的DataFrame
由字典构成DataFrame
如果构成dataframe的元素没有对应的index,比如例子中的列名为two的index是从a->b,但是列名为one的index只有a,b,c,所以在形成的dataframe中,列one对应索引为d的值为NaN:
d = {
'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
df = pd.DataFrame(d)
print(df)
->
one two
a 1.0 1.0
b 2.0