python表格数据洗掉百分号_Python高阶操作--关于数据清洗

基于pandas的数据清洗:

处理空值操作:

isnull :df.isnull()--检测出原始数据中哪些行中存在空值

notnull:

any:可以帮助我们检测df中哪些行列中存在空值,必须配合isnull使用:isnull->any(axis=1)

all:也可以帮助我们检测元数据中哪些行列中存在空···值,必须配合notnull使用:notnull->all(axis=1)

dropna:删除元数据中存在空值的行数据:df.dropna(axis=0):注意在drop函数中,0表示的是行,1表示的是列,与原生行列相反

fillna:覆盖元数据中存在的空数据,必须配合axis使用。

df.fillna(method='bfill',axis=0) #使用紧邻值填充空值

df.fillna(method='ffill',axis=1) #使用紧邻值填充空值

处理重复操作:drop_duplicates

df.drop_duplicates(keep='first'):保留第一个重复的数据

df.drop_duplicates(keep='last'):保留最后一个重复的数据

df.drop_duplicates(keep=False):全部删除

处理异常数据:

df.drop(labels=xxxx):直接删除异常数据

级联操作:级联是对表格做拼接

匹配级联:

pd.concat((df1,df1,df1),axis=1):三张表按照列进行级联

pd.concat与np.concatenate函数类似,只是多了一些参数:

objs

axis=0

keys

join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联

ignore_index=False

pd

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值