数据分析---基于pandas的数据清洗

S1406793

已于 2022-03-15 10:59:42 修改

阅读量2.1k

点赞数

分类专栏：数据分析文章标签：数据分析 python 数据挖掘

于 2022-03-14 13:16:23 首次发布

本文链接：https://blog.csdn.net/S1406793/article/details/123473326

版权

数据分析专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、处理丢失的数据（删除所在行或列、覆盖）

原始数据中可能存在两种缺失值（空值）：可能会产生重复值和异常值。
有两种缺失数据： None 和 np.nan(NaN)
两种丢失数据的区别：两种数据的类型不同，None是对象类型（Nonetype），np.nan是float类型。
因此在数据分析中需要用浮点类型np.nan，可以对该空值进行算术运算且不报错，不会干扰、中断对原始数据的运算。NaN可以参与运算，None不可以参与运算。
在pandas中如果遇到None形式的空值，则pandas会将其强制转化为NaN形式。

import pandas as pd
from pandas import DataFrame,Series

（1）方式一：对空值进行过滤（删除空所在的行数据）

isnull ：是否存在空值，True对应空值；和any搭配
notnull ： False对应空值；和all搭配
any ：检测行或者列中是否存在True，只要存在一个True就返回True
all ：如果一行中全为 True就返回True，只要有一个False就返回False

使用方法一，我们首先要知道哪些行存在空值，以isnull为例，哪些行存在True 。用any来检测行或者列中是否存在True；

将这组bool值作为源数据的行索引，得到那些满足条件的行数据；

拿到这些数据的行索引，这些行就是我们将要删除的行索引；

删除这些行就得到了清洗之后的数据。

以notnull为例_flase代表空值，用all检测哪些行存在缺失值。

（2）方法二：dropna（直接删除缺失值所在行或列）

可以直接将缺失的行或者列进行删除，drop中axis的用法相反，axis=0为行

（3）方法三：对缺失值进行覆盖：fillna

当删除的成本太高的时候选择覆盖，一般情况下用旁边的值进行覆盖。

df.fillna(value=666) #用value值覆盖所有的空值；意义不大
df.fillna( method=‘ffill’,axis=0) #ffill表示向前填充，axis=0用上一列值覆盖空值
df.fillna(method='bfill',axis=1) #bfill表示向后填充，axis=1用前一行的数据覆盖空值。