数据清洗概述(数据清洗读书笔记)

1.1数据清洗的背景

1.1.1数据质量概述

       数据质量是指在业务环境下,数据符合数据消费者的目的,能满足业务场景具体需求的程度。从适用性的角度看,数据质量是一个相对的概念(与决策有关)。

       数据质量的特点:

        1.“业务需求”会随时间变化,数据质量也会随时间变化。

        2.数据质量可以借助信息系统度量,但独立于信息系统存在。        

        3.数据质量存在于数据的整个生命周期,随数据的产生而产生,随数据的消失而消失。

1.1.2数据质量的评价指标

        1.准确性

        2.完整性

        3.简洁性

        4.适用性(核心标准)

1.1.3数据质量的问题分类

        1.基于数据源的“脏”数据

        单数据源:

                数据质量主要取决与它的模式对数据完整性约束的控制程度

        多数据源

                多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。

        2.基于清洗方式的“脏”数据

        独立型“脏”数据

                独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。

        依赖型“脏”数据

                依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。

                (1)缺失数据包括空值(缺失值和空值)和数据异常

                (2)重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。

1.2数据清洗的定义及原理

        “脏”数据(同一值的不同表示,拼写错误,不同的命名习惯,不合法的值,空值)>>  数据洗的策略,规则  >>  满足数据质量要求得数据

1.3数据清洗的基本流程

        原始数据  >>  数据分析  >>  定义数据清洗的策略和规则  >>  搜寻并确定错误示例  >>  纠正发现的错误  >>  干净数据回流  >>  目标数据

1.4数据清洗的策略

        1.一般的数据清洗策略

        1.手工清洗策略

        2.自动清洗策略

        3.特定应用领域的清洗策略

        4.特定应用领域无关的清晰策略

        2.混合的数据清洗策略

        混合的数据清洗策略主要以自动清洗为主。

                        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值