脏数据
定义:
由于记录或者储存的原因,导致部分数据缺失、重复、异常、错误,没有分析意义,就叫做“脏数据”。
把“脏数据”识别出来,并进行删除、填补、修正等一系列处理的过程,就叫做“数据清洗”
存在形式:
缺失值,重复值,异常值
缺失值
快速浏览数据集
df.info()
使用info()函数,快速浏览数据集的类型,各列的非空值数,各列数据类型和文件大小
判断缺失值
df["platform"].isnull()
isnu11()函数会对每一个数据是否为缺失值进行判断,返回一个series。缺失值返回为True,不是缺失值返回为False。
删除指定行
df.drop(index=dfWrong.index,inplace=True)
dfWrong
表述需要删除的行数。
inplace=True
:在处理数据时,通常是直接将数据删除的。因此,之后我们的默认操作都是inplace=True
填充缺失值
df["payment_provider"].fillna(value,inplace = True)
使用fillna()
函数,将缺失值填充上指定的数据。
inplace=True
:在做数据处理时,通常是立即生效,因此一般是inplace=True
判断
判断是否存在
~df["price"].isin([22.00,65.00,78.00])
~:将布尔索引的结果取相反的值
df["price"]
:表示要判断的对象
isin()
:对对象进行逻辑判断,该对象是否在该函数的参数内,如果在,返回True
中括号里为所以可能的值。
重复
df["order_id"].duplicated()
df
为所要判断的数据
"order_id"
表示要判断的列
duplicated()
表示判断是否有重复的数
duplicated()函数会对每一个数据和之前数据重复进行判断。重复值返回True,不是重复值返回False