【转载】使用pandas进行数据清洗

最新推荐文章于 2025-04-15 22:06:21 发布

aiqituo9030

最新推荐文章于 2025-04-15 22:06:21 发布

阅读量991

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/stream886/p/6021743.html

版权

本文详细介绍了如何使用pandas进行数据清洗，包括处理重复值、空值、空格、异常值，更改数据格式，以及数据分组和分列。通过实例展示了数据清洗的重要性及常用方法，帮助读者掌握数据预处理技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用pandas进行数据清洗

本文转载自：蓝鲸的网站分析笔记 

原文链接：使用python进行数据清洗

数据表中的重复值
- duplicated()
- drop_duplicated()
数据表中的空值/缺失值
- isnull()&notnull()
- dropna()
- fillna()
数据间的空格
- 查看数据中的空格
- 去除数据中的空格
- 大小写转换
数据中的异常和极端值
- replace()
更改数据格式
- astype()
- to_datetime()
数据分组
- cut()
数据分列
- split()

数据清洗是一项复杂且繁琐(kubi)的工作，同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据，这听起来有些匪夷所思，但在实际的工作中确实如此。数据清洗的目的有两个，第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。换句话说就是有”脏”数据要洗，干净的数据也要洗。本篇文章将介绍几种简单的使用python进行数据清洗的方法。

开始之前还是先在python中导入需要使用的库文件，然后进行数据读取，并创建名为loandata的数据表。这里为了更好的展示清洗的步骤和结果，我们使用的是lendingclub公开数据中的一小部分。

 
          import numpy as np 
         
          import pandas as pd 
         
          loandata=pd.DataFrame(pd.read_excel('loandata.xlsx'))

数据清洗的目的有两个，第一是通过清洗让脏数据变的可用。这也是我们首先要解决的问题。无论是线下人工填写的手工表，还是线上通过工具收集到的数据，又或者是CRM系统中导出的数据。很多数据源都有一些这样或者那样的问题，例如：数据中的重复值，异常值，空值，以及多余的空格和大小写错误的问题。下面我们逐一进行处理。

数据表中的重复值

第一个要处理的问题是数据表中的重复值，pandas中有两个函数是专门用来处理重复值的，第一个是duplicated函数。Duplicated函数用来查找并显示数据表中的重复值。下面是使用这个函数对数据表进行重复值查找后的结果。

 
          loandata.duplicated()

这里有两点需要说明：第一，数据表中两个条目间所有列的内容都相等时duplicated才会判断为重复值。(Duplicated也可以单独对某一列进行重复值判断)。第二，duplicated支持从前向后(first)，和从后向前(last)两种重复值查找模式。默认是从前向后进行重复值的查找和判断。换句话说就是将后出现的相同条件判断为重复值。在前面的表格中索引为4的1311748和索引为1的条目相同。默认情况下后面的条目在重复值判断中显示为True。

Pandas中的drop_duplicates函数用来删除数据表中的重复值，判断标准和逻辑与duplicated函数一样。使用drop_duplicates函数后，python将返回一个只包含唯一值的数据表。下面是使用drop_duplicates函数后的结果。与原始数据相比减少了3行，仔细观察可以发现，drop_duplicates默认也是使用了first模式删除了索引为4的重复值，以及后面的另外两个重复值。