python数据清洗语句_使用python进行数据清洗

最新推荐文章于 2022-03-18 14:31:57 发布

weixin_39640090

最新推荐文章于 2022-03-18 14:31:57 发布

阅读量212

点赞数

文章标签： python数据清洗语句

数据清洗是一项复杂且繁琐(kubi)的工作，同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据，这听起来有些匪夷所思，但在实际的工作中确实如此。数据清洗的目的有两个，第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗，干净的数据也要洗。本篇文章将介绍几种简单的使用python进行数据清洗的方法。

开始之前还是先在python中导入需要使用的库文件，然后进行数据读取，并创建名为loandata的数据表。这里为了更好的展示清洗的步骤和结果，我们使用的是lendingclub公开数据中的一小部分。

import numpy as np

import pandas as pd

loandata=pd.DataFrame(pd.read_excel('loandata.xlsx'))

数据清洗的目的有两个，第一是通过清洗让脏数据变的可用。这也是我们首先要解决的问题。无论是线下人工填写的手工表，还是线上通过工具收集到的数据，又或者是CRM系统中导出的数据。很多数据源都有一些这样或者那样的问题，例如：数据中的重复值，异常值，空值，以及多余的空格和大小写错误的问题。下面我们逐一进行处理。

数据表中的重复值

第一个要处理的问题是数据表中的重复值，pandas中有两个函数是专门用来处理重复值的，第一个是duplicated函数。Duplicated函数用来查找并显示数据表中的重复值。下面是使用这个函数对数据表进行重复值查找后的结果。

loandata.duplicated()

这里有两点需要说明：第一，数据表中两个条目间所有列的内容都相等时duplicated才会判断为重复值。(Duplicated也可以单独对某一列进行重复值判断)。第二，duplicated支持从前向后(first)，和从后向前(last)两种重复值查找模式。默认是从前向后进行重复值的查找和判断。换句话说就是将后出现的相同条件判断为重复值。在前面的表格中索引为4的1311748和索引为1的条目相同。默认情况下后面的条目在重复值判断中显示为True。

Pandas中的drop_duplicates函数用来删除数据表中的重复值，判断标准和逻辑与duplicated函数一样。使用drop_duplicates函数后，python将返回一个只包含唯一值的数据表。下面是使用drop_duplicates函数后的结果。与原始数据相比减少了3行，仔细观察可以发现，drop_duplicates默认也是使用了first模式删除了索引为4的重复值，以及后面的另外两个重复值。

loandata.drop_duplicates()

数据表中的空值

第二个要处理的问题是数据表中的空值，在python中空值被显示为NaN。在处理空值之前我们先来检查下数据表中的空值数量。对于一个小的数据表，我们可以人工查找，但对于较为庞大的数据表，就需要寻找一个更为方便快捷的方法了。首先，对关键字段进行空值查找。这里我们分别选择了对loan_amnt字段和annual_inc字段查找空值。

Pandas中查找数据表中空值的函数有两个，一个是函数isnull，如果是空值就显示True。另一个函数notnull正好相反，如果是空值就显示False。以下两个函数的使用方法以及通过isnull函数获得的空值数量。

loandata.isnull()

loandata.notnull()

通过isnull函数和value_counts函数分别获得了loan_amnt列和annual_inc列中的空值数据量。