pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
pandas中主要有两种数据类型:
- Series: 一维 带标签数组
- DataFrame: 二维
DataFrame结构是由series构成的,series相当于矩阵当中的一行或者一列。
常用方法:
import pandas
food_info = pandas.read_cvs("food_info")
food_info.head(3) #显示前三条数据(如果不传参数,默认显示前五条数据)
food_info.tail(3) #显示最后三行数据
food_info.columns #得到所有的列名
food_info.shape #得到数据的行数和列数
food_info.loc[0] #取出索引为0的数据
#可以直接用列名定位数据取出
col_names = food_info.columns.tolist() #将所有的列名组成一个List
food_info["iron"] = iron_gram #新建一列并且为其赋值
food_info["iron"].max #得到这列数据中的最大值
titanic_survival.pivot_table(index = "Pclass",value = "Age")
#pivot_table的作用就是计算两列的关系以Pclass分组来统计Age的数量
titanic_survival.dropna(axis = 0,subset=["Age","Sex"]])
#剔除Age和Sex中的缺失值
titanic_survival.sort_value("Age",ascending = False) #对Age进行降序排列