1. 数据清洗
1.1 空值和缺失值的处理
空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。
一般空值使用None表示,缺失值使用NaN表示
1.1.1 使用isnull()和notnull()函数
可以判断数据集中是否存在空值和缺失值
1.1.1.1 isnull()语法格式:
pandas . isnull(obj)
1.1.1.2 notnull()语法格式:
pandas . notnull(obj)
notnull()与 isnull()函数的功能是一样的,都可以判断数据中是否存在空值或缺失值,不同处在于,前者发现数据中有空值或缺失值时返回False,后者返回的是True.
1.1.2 使用 dropna()和fillna()方法
对缺失值进行删除和填充。
1.1.2.1 dropna()删除含有空值或缺失值的行或列
axis:确定过滤行或列
how:确定过滤的标准,默认是‘any’
inplase::False=不修改对象本身
1.1.2.2 fillna()方法可以实现填充空值或者缺失值
value:用于填充的数值,
method:表示填充方式,默认值为None,‘ffill’前填充,‘bfill’后填充
limit:可以连续填充的最大数量,默认None.
1.2 重复值的处理
当数据中出现了重复值,在大多数情况下需要进行删除。
1.2.1 使用duplicated()和drop_duplicates()方法
duplicated()方法用于标记是否有重复值。
drop_duplicates()方法用于删除重复值。
它们的判断标准是一样的,即只要两条数中所有条目的值完全相等,就判断为重复值。
1.2.2 duplicated()方法的语法格式
subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签。
keep:删除重复项并保留第一次出现的项取值可以为 first、last或 False
duplicated()方法用于标记 Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False,所以该方法返回一个由布尔值组成的Series对象,它的行索引保持不变,数据则变为标记的布尔值
强调注意:
(1)只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。
(2)duplicated()方法支持从前向后( first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。
1.2.2.1 drop_duplicates()方法的语法格式
2上述方法中, inplace参数接收一个布尔类型的值,表示是