近期做数据处理做的比较多,对用到的Pandas模块里面的方法做下总结,以便自己以后可以更容易的去查看自己所学:
import pandas as pd
df=pd.read_csv('data.csv')
1)删掉数据中的异常值
df.drop(df[df.price>100].index,inplace=True)
删掉某列:删掉列名为price的整列数据,axis为0代表行,为1代表列,使用inplace可以更快的处理数据,建议drop数据的时候加上此参数,将其设置为True
df.drop(labels='price',axis=1,inplace=True)
2) 获取A列的值(做了去重操作)
df.A.value_counts() #这个涉及到统计各个值出现的情况
df.A.unique() #这个返回一个关于不重复的值的数组
3) 按照A列分组后并对其余列的数据做求和操作
df.groupby(['A']).sum()
4) 查看数据的缺失值情况