python代码讲解-Python代码实操：详解数据清洗

最新推荐文章于 2024-07-29 17:30:07 发布

weixin_37988176

最新推荐文章于 2024-07-29 17:30:07 发布

阅读量291

点赞数

原标题：Python代码实操：详解数据清洗

导读：此前的文章《一文看懂数据清洗：缺失值、异常值和重复值的处理》中，我们介绍了数据清洗的过程和方法，本文给出各步骤的详细代码，方便你动手操作。

作者：宋天龙

如需转载请联系大数据（ID：hzdashuju）

本文示例中，主要用了几个知识点：

通过 pd.DataFrame新建数据框。

通过df.iloc[]来选择特定的列或对象。

使用Pandas的isnull判断值是否为空。

使用all和any判断每列是否包含至少1个为True或全部为True的情况。

使用Pandas的dropna直接删除缺失值。

使用sklearn.preprocessing中的Imputer方法对缺失值进行填充和替换，支持3种填充方法。

使用Pandas的fillna填充缺失值，支持更多自定义的值和常用预定义方法。

通过copy获得一个对象副本，常用于原始对象和复制对象同时进行操作的场景。

通过for循环遍历可迭代的列表值。

自定义代码实现了Z-Score计算公式。

通过Pandas的duplicated判断重复数据记录。

通过Pandas的drop_duplicates删除数据记录，可指定特定列或全部。

01 缺失值处理

在缺失值的处理上，主要配合使用sklearn.preprocessing中的Imputer类、Pandas和Numpy。其中由于Pandas对于数据探索、分析和探查的支持较为良好，因此围绕Pandas的缺失值处理较为常用。

1. 导入库

该代码示例中用到Pandas、Numpy和sklearn。

importpandas aspd 　 # 导入Pandas库

importnumpy asnp 　 # 导入Numpy库

fromsklearn.preprocessing importImputer 　 # 导入sklearn.preprocessing中的Imputer库

2. 生成缺失数据

# 生成缺失数据

df = pd.DataFrame(np.random.randn( 6, 4), columns=[ 'col1', 'col2', 'col3', 'col4']) 　　　 # 生成一份数据

df.iloc[ 1: 2, 1] = np.nan 　　　　　 # 增加缺失值

df.iloc[ 4, 3] = np.nan 　 # 增加缺失值

print(df)

通过Pandas生成一个6行4列，列名分别为'col1'、'col2'、'col3'、'col4'的数据框。同时，数据框中增加两个缺失值数据。

除了示例中直接通过pd.DataFrame来直接创建数据框外，还可以使用数据框对象的df.from_records、df.from_dict、df.from_items来从元组记录、字典和键值对对象创建数据框，或使用pandas.read_csv、pandas.read_table、pandas.read_clipboard等方法读取文件或剪贴板创建数据框。该代码段执行后返回了定义含有缺失值的数据框，结果如下：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 NaN -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 NaN

5 1.928313 -1.376593 -1.557721 0.289643

提示：由于生成的数据是随机产生的，因此读者的实际结果可能与上述结果不一致。

3. 判断缺失值

# 查看哪些值缺失

nan_all = df.isnull # 获得所有数据框中的N值

print(nan_all) # 打印输出

# 查看哪些列缺失

nan_col1 = df.isnull.any # 获得含有NA的列

nan_col2 = df.isnull.all # 获得全部为NA的列

print(nan_col1) # 打印输出

print(nan_col2) # 打印输出

通过df.null方法找到所有数据框中的缺失值（默认缺失值是NaN格式），然后使用any或all方法来查找含有至少1个或全部缺失值的列，其中any方法用来返回指定轴中的任何元素为True，而all方法用来返回指定轴的所有元素都为True。该代码段执行后返回如下结果。

判断元素是否是缺失值（第2行第2列和第5行第4列）：

col1 col2 col3 col4

0 False False False False

1 False True False False

2 False False False False

3 False False False False

4 False False False True

5 False False False False

列出至少有一个元素含有缺失值的列（该示例中为col2和col4）：

col1 False

col2 True

col3 False

col4 True

dtype: bool

列出全部元素含有缺失值的列（该示例中没有）：

col1 False

col2 False

col3 False

col4 False

dtype: bool

4. 丢弃缺失值

df2 = df.dropna # 直接丢弃含有NA的行记录

print(df2) # 打印输出

通过Pandas默认的dropna方法丢弃缺失值，返回无缺失值的数据记录。该代码段执行后返回如下结果（第2行、第5行数据记录被删除）：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

5 1.928313 -1.376593 -1.557721 0.289643

5. 通过sklearn的数据预处理方法对缺失值进行处理

nan_model = Imputer(missing_values= 'NaN', strategy= 'mean', axis= 0) # 建立替换规则：将值为NaN的缺失值以均值做替换

nan_result = nan_model.fit_transform(df) # 应用模型规则

print(nan_result) # 打印输出

首先通过Imputer方法创建一个预处理对象，其中missing_values为默认缺失值的字符串，默认为NaN；示例中选择缺失值替换方法是均值（默认），还可以选择使用中位数和众数进行替换，即strategy值设置为median或most_frequent；后面的参数axis用来设置输入的轴，默认值为0，即使用列做计算逻辑。

然后使用预处理对象的fit_transform方法对df（数据框对象）进行处理，该方法是将fit和transform组合起来使用。代码执行后返回如下结果：

[[-0.11241503 -0.76818022 -0.08485904 0.29669147]

[-1.77731513 -0.44946793 -0.16661458 -0.62875601]

[-0.62946127 1.89278959 -1.85000643 0.15756702]

[ 0.54486026 -1.23080434 0.836615 -0.9457117 ]

[ 0.70339369 -0.76455205 -1.21437918 -0.16611331]

[ 1.92831315 -1.37659263 -1.55772092 0.28964265]]

代码中的第2行第2列和第5行第4列分别被各自列的均值替换。为了验证，我们手动计算一下各自列的均值，通过使用df['col2'].mean和df['col4'].mean分别获得这两列的均值为-0.4494679289032068和-0.16611331259664791，与sklearn返回的结果一致。

6. 使用Pandas做缺失值处理

nan_result_pd1 = df.fillna(method= 'backfill') # 用后面的值替换缺失值

nan_result_pd2 = df.fillna(method= 'bfill', limit= 1) # 用后面的值替代缺失值,限制每列只能替代一个缺失值

nan_result_pd3 = df.fillna(method= 'pad') # 用前面的值替换缺失值

nan_result_pd4 = df.fillna( 0) # 用0替换缺失值

nan_result_pd5 = df.fillna({ 'col2': 1.1, 'col4': 1.2}) # 用不同值替换不同列的缺失值

nan_result_pd6 = df.fillna(df.mean[ 'col2': 'col4']) # 用各自列的平均数替换缺失值

# 打印输出

print(nan_result_pd1) # 打印输出

print(nan_result_pd2) # 打印输出

print(nan_result_pd3) # 打印输出

print(nan_result_pd4) # 打印输出

print(nan_result_pd5) # 打印输出

print(nan_result_pd6) # 打印输出

Pandas对缺失值的处理方法是df.fillna，该方法中最主要的两个参数是value和method。前者通过固定（或手动指定）的值替换缺失值，后者使用Pandas提供的默认方法替换缺失值。以下是method支持的方法。

pad和ffill：使用前面的值替换缺失值，示例中nan_result_pd3使用了pad方法。

backfill和bfill：使用后面的值替换缺失值，示例中nan_result_pd1和nan_result_pd2使用了该方法。

None：无。

在示例中，nan_result_pd4、nan_result_pd5、nan_result_pd6分别使用0、不同的值、平均数替换缺失值。需要注意的是，如果要使用不同具体值替换，需要使用scalar、dict、Series或DataFrame的格式定义。

上述代码执行后返回如下结果。

用后面的值（method='backfill'）替换缺失值：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 1.892790 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 0.289643

5 1.928313 -1.376593 -1.557721 0.289643

用后面的值（method='bfill', limit = 1）替换缺失值：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 1.892790 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 0.289643

5 1.928313 -1.376593 -1.557721 0.289643

用前面的值替换缺失值（method='pad'）：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 -0.768180 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 -0.945712

5 1.928313 -1.376593 -1.557721 0.289643

用0替换缺失值：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 0.000000 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 0.000000

5 1.928313 -1.376593 -1.557721 0.289643

手动指定两个缺失值分布为1.1和1.2：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 1.100000 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 1.200000

5 1.928313 -1.376593 -1.557721 0.289643

用平均数代替，选择各自列的均值替换缺失值：

col1 col2 col3 col4

0 -0.112415 -0.768180 -0.084859 0.296691

1 -1.777315 -0.449468 -0.166615 -0.628756

2 -0.629461 1.892790 -1.850006 0.157567

3 0.544860 -1.230804 0.836615 -0.945712

4 0.703394 -0.764552 -1.214379 -0.166113

5 1.928313 -1.376593 -1.557721 0.289643

以上示例中，直接指定method的方法适用于大多数情况，较为简单直接；但使用value的方法则更为灵活，原因是可以通过函数的形式将缺失值的处理规则写好，然后直接赋值即可。限于篇幅，不对所有方法做展开讲解。

另外，如果是直接替换为特定值的应用，也可以考虑使用Pandas的replace功能。本示例的df（原始数据框）可直接使用df.replace(np.nan,0)，这种用法更加简单粗暴，但也能达到效果。当然，replace的出现是为了解决各种替换应用的，缺失值只是其中的一种应用而已。

上述过程中，主要需要考虑的关键点是缺失值的替换策略，可指定多种方法替换缺失值，具体根据实际需求而定，但大多数情况下均值、众数和中位数的方法较为常用。如果场景固定，也可以使用特定值（例如0）替换。

在使用不同的缺失值策略时，需要注意以下几个问题：

缺失值的处理的前提是已经可以正确识别所有缺失值字段，关于识别的问题在使用Pandas读取数据时可通过设置na_values的值指定。但是如果数据已经读取完毕并且不希望再重新读取，那可以使用Pandas的replace功能将指定的字符串（或列表）替换为NaN。更有效的是，如果数据中的缺失值太多而无法通过列表形式穷举时，replace还支持正则表达式的写法。

当列中的数据全部为空值时，任何替换方法都将失效，任何基于中位数、众数和均值的策略都将失效。除了可以使用固定值替换外（这种情况下即使替换了该特征也没有实际参与模型的价值），最合理的方式是先将全部为缺失值的列删除，然后再做其他处理。

当列中含有极大值或极小值的inf或-inf时，会使得mean这种方法失效，因为这种情况下将无法计算出均值。应对思路是使用median中位数做兜底策略，只要列中有数据，就一定会有中位数。

02 异常值处理

有关异常值的确定有很多规则和方法，这里使用Z标准化得到的阈值作为判断标准：当标准化后的得分超过阈值则为异常。完整代码如下。

示例代码分为3个部分。

1. 导入本例需要的Pandas库

importpandas aspd # 导入Pandas库

2. 生成异常数据

df = pd.DataFrame({ 'col1': [ 1, 120, 3, 5, 2, 12, 13],

'col2': [ 12, 17, 31, 53, 22, 32, 43]})

print(df) # 打印输出

直接通过DataFrame创建一个7行2列的数据框，打印输出结果如下：

col1 col2

0 1 12

1 120 17

2 3 31

3 5 53

4 2 22

5 12 32

6 13 43

3. 为通过Z-Score方法判断异常值

df_zscore = df.copy # 复制一个用来存储Z-score得分的数据框

cols = df.columns # 获得数据框的列名

forcol incols: # 循环读取每列

df_col = df[col] # 得到每列的值

z_score = (df_col - df_col.mean) / df_col.std # 计算每列的Z-score得分

df_zscore[col] = z_score.abs > 2.2# 判断Z-score得分是否大于2.2，如果是则为True，否则为False

print(df_zscore) # 打印输出

本过程中，先通过df.copy复制一个原始数据框的副本，用来存储Z-Score标准化后的得分，再通过df.columns获得原始数据框的列名，接着通过循环判断每一列中的异常值。在判断逻辑中，对每一列的数据进行使用自定义的方法做Z-Score值标准化得分计算，然后与阈值2.2做比较，如果大于阈值则为异常。本段代码返回结果如下：

col1 col2

0 False False

1 True False

2 False False

3 False False

4 False False

5 False False

6 False False

在本示例方法中，阈值的设定是确定异常与否的关键，通常当阈值大于2.2时，就是相对异常的表现值。

4. 删除带有异常值所在的记录行

df_drop_outlier = df[df_zscore[ 'col1'] == False]

print(df_drop_outlier)

本段代码里我们直接使用了Pandas的选择功能，即只保留在df_zscore中异常列（col1）为False的列。完成后在输出的结果中可以看到，删除了index值为1的数据行。

col1 col2

0 1 12

2 3 31

3 5 53

4 2 22

5 12 32

6 13 43

上述过程中，主要需要考虑的关键点是：如何判断异常值。

对于有固定业务规则的可直接套用业务规则，而对于没有固定业务规则的，可以采用常见的数学模型进行判断：

基于概率分布的模型（例如正态分布的标准差范围）

基于聚类的方法（例如KMeans）

基于密度的方法（例如LOF）

基于分类的方法（例如KNN）

基于统计的方法（例如分位数法）等。

异常值的定义带有较强的主观判断色彩，具体需要根据实际情况选择。

03 重复值处理

有关重复值的处理代码分为4个部分。

1. 导入用到的Pandas库

importpandas aspd # 导入Pandas库

2. 生成重复数据

data1, data2, data3, data4 = [ 'a', 3], [ 'b', 2], [ 'a', 3], [ 'c', 2]

df = pd.DataFrame([data1, data2, data3, data4], columns=[ 'col1', 'col2'])

print(df)

在代码中，我们在一列中直接给4个对象赋值，也可以拆分为4行分别赋值。该数据是一个4行2列数据框，数据结果如下：

col1 col2

0 a 3

1 b 2

2 a 3

3 c 2

3. 判断重复数据

isDuplicated = df.duplicated # 判断重复数据记录

print(isDuplicated) # 打印输出

判断数据记录是否为重复值，返回每条数据记录是否重复结果，取值为True或False。判断方法为df.duplicated，该方法中两个主要的参数是subset和keep。

subset：要判断重复值的列，可以指定特定列或多个列。默认使用全部列。

keep：当重复时不标记为True的规则，可设置为第1个（first）、最后一个（last）和全部标记为True（False）。默认使用first，即第1个重复值不标记为True。

结果如下：

0 False

1 False

2 True

3 False

dtype: bool

4. 删除重复值

print(df.drop_duplicates) # 删除数据记录中所有列值相同的记录

print(df.drop_duplicates([ 'col1'])) # 删除数据记录中col1值相同的记录

print(df.drop_duplicates([ 'col2'])) # 删除数据记录中col2值相同的记录

print(df.drop_duplicates([ 'col1', 'col2'])) # 删除数据记录中指定列（col1/col2）值相同的记录

该操作的核心方法是df.drop_duplicates，该方法的作用是基于指定的规则判断为重复值之后，删除重复值，其参数跟df.duplicated完全相同。在该部分方法示例中，依次使用默认规则（全部列相同的数据记录）、col1列相同、col2列相同以及指定col1和col2完全相同4种规则进行去重。返回结果如下。

删除数据记录中所有列值相同的记录，index为2的记录行被删除：

col1 col2

0 a 3

1 b 2

3 c 2

删除数据记录中col1值相同的记录，index为2的记录行被删除：

col1 col2

0 a 3

1 b 2

3 c 2

删除数据记录中col2值相同的记录，index为2和3的记录行被删除：

col1 col2

0 a 3

1 b 2

删除数据记录中指定列（col1和col2）值相同的记录，index为2的记录行被删除：

col1 col2

0 a 3

1 b 2

3 c 2

提示：由于数据是通过随机数产生，因此读者操作的结果可能与上述示例的数据结果不同。

除了可以使用Pandas来做重复值判断和处理外，也可以使用Numpy中的unique方法，该方法返回其参数数组中所有不同的值，并且按照从小到大的顺序排列。Python自带的内置函数set方法也能返回唯一元素的集合。

上述过程中，主要需要考虑的关键点是：如何对重复值进行处理。重复值的判断相对简单，而判断之后如何处理往往不是一个技术特征明显的工作，而是侧重于业务和建模需求的工作。

关于作者：宋天龙，深大数据技术专家，触脉咨询合伙人兼副总裁，前Webtrekk中国区技术和咨询负责人（德国最大在线数据分析服务提供商）。擅长数据挖掘、建模、分析与运营，精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。在电子商务、零售、银行、保险等多个行业拥有丰富的数据项目工作经验。

本文摘编自《Python数据分析与数据化运营》（第2版），经出版方授权发布。

延伸阅读《Python数据分析与数据化运营》

（第2版）

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：这是一本将数据分析技术与数据使用场景深度结合的著作，从实战角度讲解了如何利用Python进行数据分析和数据化运营。本书与同类书大的不同在于，并不只有纯粹的关于数据分析技术和工具的讲解，而且还与数据使用场景深度结合，在业务上真正可指导落地。此外，本书作者提供微信、邮箱等，可通过实时和离线两种方式及时为读者在线传道、受业、解惑。

「大数据」内容合伙人之「鉴书小分队」上线啦！

最近，你都在读什么书？有哪些心得体会想要跟大家分享？

数据叔最近搞了个大事——联合优质图书出版商机械工业出版社华章公司发起鉴书活动。

简单说就是：你可以免费读新书，你可以免费读新书的同时，顺手码一篇读书笔记就行。详情请在大数据公众号后台对话框回复合伙人查看。

福利时间?

北京第二十六届国际图书博览会（BIBF）如约而至

爱读书的你绝对不能错过！

数据叔的福利也如约而至

报名参加BIBF华章图书现场活动的小伙伴们

即可来展位报销门票哟！

Q:关于数据清洗，你还有哪些问题？

转载 / 投稿请联系：baiyu@hzbook.com

点击阅读原文，了解更多返回搜狐，查看更多

责任编辑：

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫