数据科学猫:数据预处理 之 数据清洗(Data Cleansing)

进击的橘子猫正式改名上线啦!

我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat 

也欢迎大家搜索微信公众号“进击的橘子猫”,我也会定期分享数据科学、Python、大数据、项目管理与PPT的相关知识。

让我们进击起来吧!

简介

  • 本篇主要介绍机器学习建模中数据预处理步骤的数据清洗(Data Cleansing)部分。在本篇中,会对数据清洗的定义、目的以及清洗数据的方法进行讲解。

目录

  • 一句话概括版

  • 数据清洗的定义

  • 数据清洗的目标与数据质量

  • 数据清洗的方法

  • 数据清洗的常见操作

 

 

一句话概括版

数据清洗就是通过检查并处理无关数据、重复数据、空数据、异常数据、错误数据等来全面提升数据质量的过程。

 

数据清洗的定义

数据清洗(Data Cleansing)是数据预处理的一部分,这个步骤从建模初期的特征加工就需要开始进行,并且这个步骤的成功与否会直接影响建模的效果。英文有句话叫“Garbage in, garbage out”,意思就是输入(的数据)是垃圾,输出(的数据)也是垃圾。对数据不加以清洗与规范就跑出的模型,大概率也是无法使用的。因此,我们才需要在建模初期,就对需要加工的数据进行数据检测与数据清洗,以保证数据的质量。

所以,数据清洗的过程可以简单理解为提高数据质量的过程。在数据清洗的过程中,需要有效的识别那些错误的、无效的、重复的、缺失的数据,并对其进行处理,最终提高数据质量的唯一性、完整性、一致性、有效性与准确性的要求。

 

 

数据清洗的目标与数据质量

前面已经说过,数据清洗的目标就是提高数据质量,因此,我们这里有必要理解一下什么才算是好的数据质量。

如上图所示,好的数据质量需要满足以下四个标准:

  • 唯一性:不存在无意义的重复数据

  • 12
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据清洗Data Cleansing)是指对原始数据进行处理和修复,以去除数据中的错误、冗余、不完整或不一致的部分,从而提高数据的质量和准确性。数据清洗的目的是使数据更加可靠和可用,为后续的数据分析和决策提供可靠的基础。 数据清洗的具体步骤包括: 1. 缺失值处理:处理数据中的缺失值,可以通过填充、删除或插值等方式来处理缺失值,使得数据集中没有缺失的数据。 2. 异常值处理:处理数据中的异常值,可以通过剔除、替换或平滑等方式来处理异常值,以减少异常值对数据分析结果的影响。 3. 数据格式转换:对数据进行格式转换,如字符串转换为数值型、日期格式转换等,以便进行后续的计算和分析。 4. 数据去重:对数据中的重复记录进行去重,以避免重复计算和分析。 5. 数据验证和纠错:对数据进行验证和纠错,确保数据的准确性和一致性。 数据分析(Data Analysis)是指对收集到的数据进行解释、整理、处理和模式识别等操作,以提取有价值的信息、发现规律和做出决策。数据分析可以帮助我们理解数据的含义、发现数据中的关联性和趋势,并从中得出结论和洞察。 数据分析的具体方法和技术包括统计分析、数据挖掘、机器学习、可视化等。通过对数据进行分析,可以获得对业务问题的深入理解、预测未来趋势、优化决策和提高业务绩效的能力。数据分析在各个领域都有广泛的应用,如市场调研、金融风控、医疗诊断等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值