Python数据分析 | (22) 处理缺失数据

最新推荐文章于 2021-09-06 11:19:23 发布

CoreJT

最新推荐文章于 2021-09-06 11:19:23 发布

阅读量717

点赞数 4

分类专栏： Python数据分析文章标签： Python数据分析缺失值处理

本文链接：https://blog.csdn.net/sdu_hao/article/details/101844709

版权

Python数据分析专栏收录该内容

36 篇文章 28 订阅

订阅专栏

在数据分析和建模的过程中，相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规整为想要的格式。

如果你发现了一种本书或pandas库中没有的数据操作方式，请在邮件列表或GitHub网站上提出。实际上，pandas的许多设计和实现都是由真实应用的需求所驱动的。

在接下来的4篇博客中，我会讨论处理缺失数据、重复数据、字符串操作和其它分析数据转换的工具。之后，我们会关注于用多种方法合并、重塑数据集。

1. 缺失数据

2. 滤除缺失数据

3. 填充缺失数据

1. 缺失数据

在许多数据分析工作中，缺失数据是经常发生的。pandas的目标之一就是尽量轻松地处理缺失数据。例如，pandas对象的所有描述性统计默认都不包括缺失数据。

缺失数据在pandas中呈现的方式有些不完美，但对于大多数用户可以保证功能正常。对于数值数据，pandas使用浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值，可以方便的检测出来:

import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
print(string_data)
string_data.isnull()

在pandas中，我们采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available。在统计应用中，NA数据可能是不存在的数据或者虽然存在，但是没有观察到(例如，数据采集中发生了问题)。当进行数据清洗以进行分析时，最好直接对缺失数据进行分析，以判断数据采集的问题或缺失数据可能导致的偏差。

Python内置的None值在对象数组中也可以作为NA:

string_data[0] = None
string_data.isnull()

pandas项目中还在不断优化内部细节以更好处理缺失数据，像用户API功能，例如pandas.isnull，去除了许多恼人的细节。下表列出了一些关于缺失数据处理的函数。

2. 滤除缺失数据

过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull或布尔索引的手工方法，但dropna可能会更实用一些。对于一个Series，dropna返回一个仅含非空数据和索引值的Series:

from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

data[data.notnull()]

而对于DataFrame对象，事情就有点复杂了。你可能希望丢弃全NA或含有NA的行或列。dropna默认丢弃任何含有缺失值的行:

data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
                     [NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
print(data)
print("------")
print(cleaned)

传入how='all'将只丢弃全为NA的那些行:

data.dropna(how='all')

用这种方式丢弃列，只需传入axis=1即可:

data[4] = NA
print(data)
data.dropna(axis=1, how='all')

另一个滤除DataFrame行的问题涉及时间序列数据。假设你只想留下一部分观测数据，可以用thresh参数实现此目的:

df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
print(df)
print(df.dropna())
df.dropna(thresh=2)#去除包含两个nan的行

3. 填充缺失数据

你可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据)，而是希望通过其他方式填补那些“空洞”。对于大多数情况而言，fillna方法是最主要的函数。通过一个常数调用fillna就会将缺失值替换为那个常数值:

print(df)
df.fillna(0)

若是通过一个字典调用fillna，就可以实现对不同的列填充不同的值:

df.fillna({1: 0.5, 2: 0})

fillna默认会返回新对象，但也可以对现有对象进行就地修改:

_ = df.fillna(0, inplace=True)
df

对reindexing有效的那些插值方法也可用于fillna:

df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
print(df)
print(df.fillna(method='ffill')) #ffill对缺失值填充为它前面的值
print(df.fillna(method='ffill', limit=2)) #限制最大填充数量为2

只要有些创新，你就可以利用fillna实现许多别的功能。比如说，你可以传入Series的平均值或中位数:

data = pd.Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean())

下表列出了fillna的参考：

CoreJT

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析 | (22) 处理缺失数据

在数据分析和建模的过程中，相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的...
复制链接

扫一扫

专栏目录