DataFrame
DataFrame 概念和创建 :
先来看一个例子 :
这是一个由列表组成的字典
importnumpy as npimportpandas as pd
data= {'name':['Jack','Tom','Mary'],'age':[18,19,21],'gender':['m','m','w']}
frame=pd.DataFrame(data)print(frame)
可以看到 DataFrame 可以理解是一个二维数组,是一个表格型的数据结构,它包含了有序的列.
其列的值 ,它可以是 字符串 数值 或者是 布尔值等. 从行和列看,DataFrame是一个带有标签的二维数组
如何取行和列呢? 是用index 和 columns属性可以拿到,如下 :
print(frame.index) # 取列,标签,索引print(frame.columns) # 取行
也可以使用Values 取得该DataFrame的值 :
print(frame.values , type(frame.values))
查看该frame的属性,可以看到该frame还是一个数组,接下来看看DataFrame的创建方式
方法一 : 是由
数组或者list组成的字典. 每一个键值对,就是一列,且长度需要一致.如图
还可以指定DataFrame的列 和 行,使用cloumns属性和 index 属性 list类型参数,(如果设置的该列不存在,就用NaN填充) :
frame = pd.DataFrame(data,index=['Jack','Tom','Mary'],columns=['age','name','gender','height'])
需要注意的是 指定index 重新定义索引,格式是list ,长度需要一致.否则报错!
方法二 : 由 Series组成的字典 :
data1 = {'one':pd.Series(np.random.rand(2)),'two':pd.Series(np.random.rand(3))} #没有设置index的Series
data2 = {'one':pd.Series(np.random.rand(2),index=['a','b']),'two':pd.Series(np.random.rand(3),index=['a','b','c'])} #设置了indes9Series
print(data2)
df1=pd.DataFrame (data1)
df2= pd.DataFrame (data2)
与上面的方法一相比,Series 可以长度不一样,对于没有的值,DataFrame会用NaN填充.
由Series 组成的字典, 创建DataFrame时, columns为字典的key,index为Series 的标签,就是索引.如果Series没有指定标签,那就默认用数字标签.
方法三 : 通过 二维数组 直接创建
arr = pd.DataFrame(np.random.rand(9).reshape(3,3))