pandas入门（7）——数据清洗

Annaaphq

已于 2022-08-05 12:58:45 修改

阅读量1.8k

点赞数

文章标签： pandas python 数据分析

于 2022-08-05 12:47:58 首次发布

本文链接：https://blog.csdn.net/Annaaphq/article/details/126175514

版权

本文是pandas入门系列的第七篇，重点介绍如何处理数据清洗。内容涵盖处理缺失数据，如滤除和填充；数据转换，包括移除重复数据、利用函数或映射进行数据转换、替换值、重命名轴索引以及检测和过滤异常值。通过实例讲解了DataFrame和Series对象的常用方法，如dropna、fillna、duplicated、drop_duplicates等。

摘要由CSDN通过智能技术生成

pandas入门（7）——数据清洗

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以轻松地将数据规整为想要的格式

一、处理缺失数据

在许多数据分析工作中，缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。例如，pandas对象的所有描述性统计默认都不包括缺失数据

缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN（Not a Number）表示缺失数据。我们称其为哨兵值，可以方便的检测出来：

In [1]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

In [3]: string_data.isnull()
Out[3]: 
0    False
1    False
2     True
3    False

在pandas中，我们采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available。在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到（例如，数据采集中发生了问题）。当进行数据清洗以进行分析时，最好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。

Python内置的None值在对象数组中也可以作为NA：

In [4]: string_data[0] = None

In [5]: string_data.isnull()
Out[5]: 
0     True
1    False
2     True
3    False

pandas项目中还在不断优化内部细节以更好处理缺失数据，像用户API功能，例如pandas.isnull，去除了许多恼人的细节

1、滤除缺失数据

1.1 Series对象

通过pandas.isnull或布尔索引的手工方法，但dropna可能会更实用一些。对于一个Series，dropna返回一个仅含非空数据和索引值的Series：

In [6]: from numpy import nan as NA

In [7]: data = pd.Series([1, NA, 3.5, NA, 7])

In [8]: data.dropna()
Out[8]: 
0    1.0
2    3.5
4    7.0

这等价于：

In [9]: data[data.notnull()]
Out[9]: 
0    1.0
2    3.5
4    7.0

1.2 DataFrame对象

dropna默认丢弃任何含有缺失值的行，如

In [10]: data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
   ....:                      [NA, NA, NA], [NA, 6.5, 3.]])

In [11]: cleaned = data.dropna()

In [12]: data
Out[12]: 
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

In [13]: cleaned
Out[13]: 
     0    1    2
0  1.0  6.5  3.0

传入how='all’将只丢弃全为NA的那些行：

In [24]: data.dropna(how='all')
Out[24]: 
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0

用这种方式丢弃列，只需传入axis=1即可：

In [25]: data[4] = NA

In [26]: data
Out[26]: 
     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN

In [27]: data.dropna(axis=1, how='all')
Out[27]: 
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

涉及时间序列数据，假设你只想留下一部分观测数据，可以用thresh参数实现此目的：

n [27]: df = pd.DataFrame(np.random.randn(7, 3))

In [28]: df.iloc[:4, 1] = NA

In [29]: df.iloc[:2, 2] = NA

In [30]: df
Out[30]: 
          0         1         2
0 -0.204708       NaN       NaN
1 -0.555730       NaN       NaN
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

In [31]: df.dropna()
Out[31]: 
          0         1         2
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

In [32]: df.dropna(thresh=2)
Out[32]: 
          0         1         2
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

2、填充缺失数据

有时不想滤除缺失数据（有可能会丢弃跟它有关的其他数据），而是希望通过其他方式填补那些“空洞”。对于大多数情况而言，fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值：

In [33]: df.fillna(0)
Out[33]: 
          0         1         2
0 -0.204708  0.000000  0.000000
1 -0.555730  0.000000  0.000000
2  0.092908  0.000000  0.769023
3  1.246435  0.000000 -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

若是通过一个字典调用fillna，就可以实现对不同的列填充不同的值：

In [34]: df.fillna({1: 0.5, 2: 0})
Out[34]: 
          0         1         2
0 -0.204708  0.500000  0.000000
1 -0.555730  0.500000  0.000000
2  0.092908  0.500000  0