Pandas 数据分析与处理入门2

最新推荐文章于 2024-07-18 09:22:11 发布

一只会飞的大老虎

最新推荐文章于 2024-07-18 09:22:11 发布

阅读量146

点赞数

本文链接：https://blog.csdn.net/qq_41647519/article/details/107859104

版权

对于Series：
（）需放入list型，np.arange，range型,同时可指定index = ;
此外，也可直接放入字典型{}，同时指定了数据和对应的索引

se = pd.Series(，index = )

对应DataFrame：
是一种表格型数据结构
可通过嵌套字典的形式构建，同时指定了数据和对应的索引
外层字典的键作为列索引，内层字典的值作为行索引

df = pd.DataFrame({'one':{'a':1},'two':{'a':2},.....})

字典：

df[]  #[]内放入列索引名称

属性的方式：

df.   #.后放置列索引的名称

以上获得的Series同样具有字典标记，可通过

df.列名[]  #[]放入行具体位置or位置索引名称

得到放在具体位置的数据，从而可以通过赋值来改变该位置的数据

df.loc[] #[]内放入具体的行索引名称

df.iloc[] #[]内放入具体的位置，只能是整数int型

以上的方法也可以根据列索引查询数据，通常行和列结合起来索引数据，先行后列

df.loc[:,:'列名称']
df.loc[['行名称'，'行名称'],:]

相应的，df.iloc[ ]就是通过int型的整数数据来索引对应的数据

df.describe()  #用于描述df数据类型的各列的统计值，返回的还是一个df类型数据格式

若想求某一个具体的统计值，df.mean()求平均值，df.sum()求和，df.max()求最大值
同时，当以上括号内部为axis = 1时，求的是某一行的统计值;describe除外

csv、txt文件使用的是pd.read_csv()读取，默认是根据逗号分隔数据
xls、xlsx文件用的是pd.read_excel()读取

df.columns
df.index
df.values
df.dtypes  #输出的每一列对应的数据类型

同时，若读取到的文件行索引不是所想要的，可以通过

df.set_index('列索引名称',inplace = True)

即可获得以比如说’时间‘重新行索引的df类型数据

关注