数据清洗

在数据分析的过程中,原始数据可能在采集的过程中会出现空值或者重复值又或是异常值,为了避免对结果产生影响,我们会对这些数据进行清理。

数据清洗主要做这样三件事: 1.处理缺失值 2.处理重复值(一般指重复行数据) 3.处理异常值

首先要做的是先进行导入必用库:
在这里插入图片描述

然后对于缺失值,我们一般会用近邻数据来补充,这个时候主要会用到 fillna() 这个函数,在DataFrame中用fillna() 取近邻值,我们一般这么写:df.fillna(method = '', axis = ),在其中的method中,如果要向前取值,则可以写 ffill(forwar fill),若是向后取值,则是bfill(backfill),axis在其中与平时相同,0表示列,1表示行。

这是一个含有几个空值的一些数据,我们使用 fillna()函数进行处理,
在这里插入图片描述

像这样用指令处理
在这里插入图片描述
则会有这样的结果
在这里插入图片描述
如果要处理重复值,则主要用drop_duplicates这个代码来处理。
比如说刚才那些数据我们让其中几行有一些重复数据
在这里插入图片描述

可以看到其中的第三行和第六行全是4,这个时候我们最多保留一行。
如果选择保留后一行,则可以这样写
在这里插入图片描述
如果选择保留前一行,则可以把keep = ‘last'改为keep = ‘first’
在这里插入图片描述
对异常数据的处理则是根据对异常数据判定的标准,删除那些数据。
比如这段数据中,设定以C列为基准,如果C列数据大于其两倍标准差,则被认定为异常数据。
在这里插入图片描述
那么我们应当先进行判断得到布尔值
在这里插入图片描述
判断为False的那些数据就是小于两倍标准差的数据,应当被保留,但False无法通过loc进行保留,所以我们反转布尔值进行判定,就可以保留小于两倍标准差的数据。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值