1.构建pandas的Series和DataFrame类型小结:
对于Series:
()需放入list型,np.arange,range型,同时可指定index = ;
此外,也可直接放入字典型{},同时指定了数据和对应的索引
se = pd.Series(,index = )
对应DataFrame:
是一种表格型数据结构
可通过嵌套字典的形式构建,同时指定了数据和对应的索引
外层字典的键作为列索引,内层字典的值作为行索引
df = pd.DataFrame({'one':{'a':1},'two':{'a':2},.....})
2.通过类似字典的方式或的方式从df中获取一个Series
字典:
df[] #[]内放入列索引名称
属性的方式:
df. #.后放置列索引的名称
以上获得的Series同样具有字典标记,可通过
df.列名[] #[]放入行具体位置or位置索引名称
得到放在具体位置的数据,从而可以通过赋值来改变该位置的数据
3.根据行索引查询数据
df.loc[] #[]内放入具体的行索引名称
df.iloc[] #[]内放入具体的位置,只能是整数int型
以上的方法也可以根据列索引查询数据,通常行和列结合起来索引数据,先行后列
df.loc[:,:'列名称']
df.loc[['行名称','行名称'],:]
相应的,df.iloc[ ]就是通过int型的整数数据来索引对应的数据
4.数据的统计与分析
df.describe() #用于描述df数据类型的各列的统计值,返回的还是一个df类型数据格式
若想求某一个具体的统计值,df.mean()求平均值,df.sum()求和,df.max()求最大值
同时,当以上括号内部为axis = 1时,求的是某一行的统计值;describe除外
5.pandas数据读取
csv、txt文件使用的是pd.read_csv()读取,默认是根据逗号分隔数据
xls、xlsx文件用的是pd.read_excel()读取
df.columns
df.index
df.values
df.dtypes #输出的每一列对应的数据类型
同时,若读取到的文件行索引不是所想要的,可以通过
df.set_index('列索引名称',inplace = True)
即可获得以比如说’时间‘重新行索引的df类型数据