Python 数据清洗
数据清洗的目的在于提升数据质量
Pandas 中常见的数据清洗 对空值和缺失值的处理 重复值的处理 异常值的处理
空值和缺失值
- 空值一般表示数据未知 不适用或在以后添加数据
- 缺少值是数据集中某个或某些属性的值不完整的
在 Pandas 提供了一些用于检查或处理空值和缺失值的函数 ,
其中
isnull( ) 和 notnull ( ) 函数就可以判断是否存在空值和缺失值。
对于缺失的数据 可以使用 dropna( ) 和 fillna( ) 方法进行删除和填充
from pandas import DataFrame ,Series
import pandas as pd
from numpy import NAN
series_obj = Series([1,None,NAN])
pd.isnull(series_obj) #检查 是否为空值或缺失值
这个代码的意思是 ,创建了一个Series 对象,对象中包含了 1 . None NAN 三个值
然后调用isnull()函数检查
第一个是正常的 ,后面两个缺失了
notnull( )函数
顾名思义 同理
dropna()方法
dropna 删除含有空值或缺失值行列
有关于 他的语法
他有四个参数
前两个参数 是看是否删除行列
后两个参数 看过滤的标准