2021-09-08

本文介绍了数据清洗的背景和重要性,强调了数据质量对于业务需求的影响。数据清洗涉及准确性、完整性等评价指标,并根据数据源和清洗方式对脏数据进行了分类。数据清洗流程包括分析、定义策略、错误检测和纠正。常见的清洗方法包括处理缺失值、重复值和错误值。文章还探讨了数据清洗的策略,如手工清洗、自动清洗及混合策略,并列举了具体方法,如忽略或填充缺失值,以及通过相似度计算和约束规则来处理重复和错误数据。
摘要由CSDN通过智能技术生成

数据清洗第一章笔记

1.1 数据清洗的背景
由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
一.数据质量
1.数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
2.数据质量的评价指标:准确性、完整性、简洁性、适用性(核心标准)。
3.数据质量问题的分类
⑴基于数据源的的“脏”数据分类
①单数据源
模式层(数据库的结构,即关系结构)
实例层(关系中具体存储的数据记录或元组)
②多数据源
⑵基于清洗方式的“脏”数据分类
①独立型“脏”数据
②依赖型“脏”数据:主要包括缺失数据和重复数据等。
二.数据清洗原理
利用相关技术将“脏”数据转换为满足质量要求的数据。
三.数据清洗基本流程
原始数据

数据分析

定义数据清洗的策略和规则

搜寻并确定错误实例

纠正发现的错误

干净数据回流

目标数据
四.数据清洗的策略
⒈一般的数据清洗策略
①手工清洗策略。
②自动清洗策略。
③特定应用领域的清洗策略。
④无特定应用领域无关的清洗策略。
⒉混合的数据清洗策略
主要以自动清洗为主(编写应用程序)。
五.常见数据清洗方法
⒈缺失值的清洗
①忽略缺失值数据。
②填充缺失值数据。
⒉重复值的清洗
基本思想:排组和合并。
方法:相似度计算、基于基本近邻排序算法。
⒊错误值的清洗
方法:①使用统计分析的方法识别可能的错误值(偏差分析、识别分析等);②使用简单规则库(常识性规则、业务特定规则等)检测出错误值;③使用不同属性间的约束以及使用外部的数据检测和处理错误值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值