Pandas 数据分析与处理入门2

1.构建pandas的Series和DataFrame类型小结:

对于Series:
()需放入list型,np.arange,range型,同时可指定index = ;
此外,也可直接放入字典型{},同时指定了数据和对应的索引

se = pd.Series(,index = )

对应DataFrame:
是一种表格型数据结构
可通过嵌套字典的形式构建,同时指定了数据和对应的索引
外层字典的键作为列索引,内层字典的值作为行索引

df = pd.DataFrame({'one':{'a':1},'two':{'a':2},.....})

2.通过类似字典的方式或的方式从df中获取一个Series

字典:

df[]  #[]内放入列索引名称

属性的方式:

df.   #.后放置列索引的名称

以上获得的Series同样具有字典标记,可通过

df.列名[]  #[]放入行具体位置or位置索引名称

得到放在具体位置的数据,从而可以通过赋值来改变该位置的数据

3.根据行索引查询数据

df.loc[] #[]内放入具体的行索引名称
df.iloc[] #[]内放入具体的位置,只能是整数int型

以上的方法也可以根据列索引查询数据,通常行和列结合起来索引数据,先行后列

df.loc[:,:'列名称']
df.loc[['行名称''行名称'],:]

相应的,df.iloc[ ]就是通过int型的整数数据来索引对应的数据

4.数据的统计与分析

df.describe()  #用于描述df数据类型的各列的统计值,返回的还是一个df类型数据格式

若想求某一个具体的统计值,df.mean()求平均值,df.sum()求和,df.max()求最大值
同时,当以上括号内部为axis = 1时,求的是某一行的统计值;describe除外

5.pandas数据读取

csv、txt文件使用的是pd.read_csv()读取,默认是根据逗号分隔数据
xls、xlsx文件用的是pd.read_excel()读取

df.columns
df.index
df.values
df.dtypes  #输出的每一列对应的数据类型

同时,若读取到的文件行索引不是所想要的,可以通过

df.set_index('列索引名称',inplace = True)

即可获得以比如说’时间‘重新行索引的df类型数据

©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页