python中的数据清洗

最新推荐文章于 2024-09-04 17:02:10 发布

python小桦

最新推荐文章于 2024-09-04 17:02:10 发布

阅读量341

点赞数 7

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/Barbara1314/article/details/137208643

版权

本文详细介绍了数据清洗中的关键概念，包括脏数据的定义、处理方法（如删除、填充缺失值），以及如何使用pandas库中的isnull(),fillna(),和duplicated()函数来检测和处理缺失值和重复值。

摘要由CSDN通过智能技术生成

脏数据

定义:
由于记录或者储存的原因，导致部分数据缺失、重复、异常、错误，没有分析意义，就叫做“脏数据”。
把“脏数据”识别出来，并进行删除、填补、修正等一系列处理的过程，就叫做“数据清洗”
存在形式:
缺失值，重复值，异常值

df.info()
使用info()函数，快速浏览数据集的类型，各列的非空值数，各列数据类型和文件大小

df["platform"].isnull()
isnu11()函数会对每一个数据是否为缺失值进行判断，返回一个series。缺失值返回为True，不是缺失值返回为False。

df.drop(index=dfWrong.index,inplace=True)
dfWrong表述需要删除的行数。
inplace=True:在处理数据时，通常是直接将数据删除的。因此，之后我们的默认操作都是inplace=True

df["payment_provider"].fillna(value,inplace = True)
使用fillna()函数，将缺失值填充上指定的数据。
inplace=True:在做数据处理时，通常是立即生效，因此一般是inplace=True

~df["price"].isin([22.00,65.00,78.00])
~:将布尔索引的结果取相反的值
df["price"]:表示要判断的对象
isin():对对象进行逻辑判断，该对象是否在该函数的参数内，如果在，返回True
中括号里为所以可能的值。

df["order_id"].duplicated()
df为所要判断的数据
"order_id"表示要判断的列
duplicated()表示判断是否有重复的数
duplicated()函数会对每一个数据和之前数据重复进行判断。重复值返回True，不是重复值返回False

关注