数据处理
删除空值NaN
函数df.dropna()
参数
axis横轴0,竖轴1
how条件all(一行全为0删除)
thresh阈值
填充空值
函数fillna
参数
inplace修改原数据
df1.fillna({0:0,1:1,2:2})字典填充(第一列填充0,第二列填充1.,第三列填充2)
method='ffill’向上填充
判断是否重复值
函数duplicated()
去除重复数据
.函数drop_duplicated()
默认删除重复行数据
drop_duplicated([‘B’])指定删除指定B列数据
keep='last’保留最后一个
替换
函数replace()
df.replace(‘a’,np.nan)将a替换为nan
df.replace({‘a’:m,‘b’:n})字典替换
str属性
统计次数
s.str.count(‘a’)
大写操作
s.str.upper()
判断以什么开头
s.str.startswich(‘a’)
数据清理,去空格
函数replace()
df.columns.str.replace(’ ‘,’-')
分割
函数split()
s.str.split(‘,’)
s.str.split(‘,’).str[0]每个列表的第一个元素
s.str.split(‘,’,expand=True)自动展开
分组聚合
df.groupby(‘name’)[‘salary’].sum()
df.groupby(‘name’,‘year’)[‘salary’].mean()
求和+求平均值+中位数
df.groupby([‘name’)[‘salary’].agg([‘sum’,‘mean’,‘median’])
透视表
函数pivot_table()
pd.pivot_table(df2,values=‘age’,index=‘smoker’,aggfunc=‘mean’)
values汇总数值
columns分析特征
index分组特征
aggfunc聚合函数
margins总计
fill_value填充0