数据清洗_缺失值处理

最新推荐文章于 2024-05-14 17:20:24 发布

风清俊

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量3.3k

点赞数

分类专栏： python 数据治理文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_43447957/article/details/120184750

版权

原文链接：风一带你一起学习:数据清洗_缺失值处理

碎碎念念：大家好！我是风一、有人调侃做数据的、80%的时间都是花在数据清洗上、虽然有时很想反驳一下、但现实确实经常是如此，那么何为数据清洗？需要处理的数据主要又有哪些？那么就让我们开始吧！

所谓的清洗，是对数据集通过丢弃、填充、替换、去重等操作，达到去除异常、纠正错误、补足缺失的目的；在数据清洗的过程中、主要需要处理的有缺失值、异常值和重复值，以下篇幅为数据缺失值处理。

一、数据缺失的两种情况：

一种是行记录的缺失，这种情况又称为数据记录的丢失；另一种是数据列值的缺失，即由于各种原因导致的数据记录中某些列的值空缺。

二、数据缺失的常用处理思路

缺失的数据记录通常都是无法找回的、那么针对数据列类型的缺失值数据、需如何处理?

直接丢弃：也就是删除带有缺失值的行记录(整行删除)或者列字段 (整列删除)，通过直接删除这种方法非常简单明了、处理起来也特别的方便，但删除就意味着会消减数据的维度、特征；尤其是存在大量的缺失值或者带有缺失值的数据记录存在着明显的数据分布规律或特征，这些场景下都不宜直接丢弃缺失值。
补全缺失值：相比直接删除而言、补全是更常用的缺失值处理方法。通过统计值(均值、中位数等)、预测值、专家补全等方法将缺失的数据补全、使数据达成一个完整的数据结构、对于后续的数据处理、分析和建模至关重要。
真值转化法：在很多场景中、是无法得知缺失值的分布规律，并且无法直接对缺失值做补全删除等处理；那么我们认为数据缺失也是一种规律，去承认缺失值的存在，比如用户性别字段、部分数据的性别是不全的，但又不能直接丢弃或者补全、那么就可以将其中的值分布状态转换为多个变量的真值状态（转换前：一个字段(值为男、女、未知)；转换后：多个字段、男（1 或 0）、女（1 或 0）、未知（1 或 0））。
不做任何处理：一般而言、这类缺失值不涉及到业务所比较关键的字段或者不影响到后期的数据分析和建模应用，很多模型对于缺失值有容忍度或灵活的处理方法，比如：KNN、决策树等等。

三、代码实练

在缺失值的处理上、主要配合使用 sklearn.preprocessing 中的 Imputer 类、Pandas 和 Numpy。

3.1.导入所需库并生成缺失数据

import pandas as pd
import numpy as np
# from sklearn.preprocessing import Imputer # 老版本

# Sklearn 专门处理缺失值的模块、官网地址：https://www.jianshu.com/p/2c59147e1df1
from sklearn.impute import SimpleImputer as Imputer

df = pd.DataFrame(np.random.randn(6

最低0.47元/天解锁文章

风清俊

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据清洗_缺失值处理

原文链接：风一带你一起学习数据清洗_缺失值处理碎碎念念：大家好！我是风一、有人调侃做数据的、80%的时间都是花在数据清洗上、虽然有时很想反驳一下、但现实确实经常是如此，那么何为数据清洗？需要处理的数据主要又有哪些？那么就让我们开始吧！所谓的清洗，是对数据集通过丢弃、填充、替换、去重等操作，达到去除异常、纠正错误、补足缺失的目的；在数据清洗的过程中、主要需要处理的有缺失值、异常值和重复值，以下篇幅为数据缺失值处理。一、数据缺失的两种情况：一种是行记录的缺失，这种情况又称为数据记录的丢失；另一种是数据列
复制链接

扫一扫