python中的数据清洗

本文详细介绍了数据清洗中的关键概念,包括脏数据的定义、处理方法(如删除、填充缺失值),以及如何使用pandas库中的isnull(),fillna(),和duplicated()函数来检测和处理缺失值和重复值。
摘要由CSDN通过智能技术生成

脏数据

定义:
由于记录或者储存的原因,导致部分数据缺失、重复、异常、错误,没有分析意义,就叫做“脏数据”。
把“脏数据”识别出来,并进行删除、填补、修正等一系列处理的过程,就叫做“数据清洗”
存在形式:
缺失值,重复值,异常值

缺失值

快速浏览数据集

df.info()
使用info()函数,快速浏览数据集的类型,各列的非空值数,各列数据类型和文件大小

判断缺失值

df["platform"].isnull()
isnu11()函数会对每一个数据是否为缺失值进行判断,返回一个series。缺失值返回为True,不是缺失值返回为False。

删除指定行

df.drop(index=dfWrong.index,inplace=True)
dfWrong表述需要删除的行数。
inplace=True:在处理数据时,通常是直接将数据删除的。因此,之后我们的默认操作都是inplace=True

填充缺失值

df["payment_provider"].fillna(value,inplace = True)
使用fillna()函数,将缺失值填充上指定的数据。
inplace=True:在做数据处理时,通常是立即生效,因此一般是inplace=True

判断

判断是否存在

~df["price"].isin([22.00,65.00,78.00])
~:将布尔索引的结果取相反的值
df["price"]:表示要判断的对象
isin():对对象进行逻辑判断,该对象是否在该函数的参数内,如果在,返回True
中括号里为所以可能的值。

重复

df["order_id"].duplicated()
df为所要判断的数据
"order_id"表示要判断的列
duplicated()表示判断是否有重复的数
duplicated()函数会对每一个数据和之前数据重复进行判断。重复值返回True,不是重复值返回False

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值