第一章.数据清洗概述
由于海量的数据来源是广泛的,数据类型也是多尔繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性以及效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.1数据清洗的背景
1.1.1数据质量概述
概念: 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能能满足业务场景具体需求的程度。
从适用性的角度来看,数据质量是以一个相对的概念(与决策者有关),不同的决策者对数据质量的高低要求也是不同的。
数据质量的显著特点如下:
(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。
(2)数据质量可以借助信息系统度量,但独立于信息系统存在。
(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.1.2数据质量的评价指标
数据质量的评价指标主要包括数据的准确性、完整性,简洁性以及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。
1.准确性
数据的准确性就是要求数据中的噪声尽可能的少。可用最常用的异常值检测方法聚类进行处理。
2.完整性
数据的完整性是指数据信息是否存在缺失的情况。可能是整条数据记录的缺失,也可能是数据中某个字段信息的缺失。
3.简洁性
简洁性就是尽量选择重要的本质属性,并消除冗余。(在数据挖掘的过程中,特征的个数越多产生噪声的机会越大)
4.适用性
适用性是评价数据质量的重要标准,从数据的实际效用上讲,适用性才是评价数据质量的核心准则。
1.1.3数据质量的核心问题分类
数据质量的问题可以分为两类:
一类是基于数据源的“脏”数据分类
(1)单数据源问题
单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。
(2)多数据源问题
多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。除模式相关的质量问题外,许多质量问题只出现在实例层次上。
(模式层是指数据库的结构,就是关系结构。实例层是指关系中具体存储的数据记录或元组)
另一类是基于清洗方式的“脏”数据分类
(1)独立型“脏”数据
可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
(2)依赖型“脏”数据
缺失数据:主要包括数据空值和数据异常。
重复数据:是指一个现实实体在数据集合中以多个不完全相同的记录表示。
1.2数据清洗的定义
数据清洗是提高数据质量的有效方法。
1.3数据清洗的原理
需要注意的是,数据清洗得目的是解决“脏”数据问题,既不是将“脏”数据洗掉。而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。
1.4数据清洗的基本流程
1.数据分析
2.定义数据清洗的策略和规则
3.搜寻并确定错误实例
4.纠正发现的错误
5.干净数据回流
1.5数据清洗的策略
1.一般的数据清洗策略
手工清洗策略
自动清洗策略
特定应用领域的清洗策略
与特定应用领域无关的清洗策略
2.混合的数据清洗策略
以自动清洗为主
1.6常见的数据清洗方法
1.缺失值的清洗
忽略缺失值数据方法
填充缺失值数据方法
2.重复值的清洗
目前清洗重复值得基本思想是“排序和合并”。清洗重复值的主要方法有相似度计算和基于基本近邻排序算法等。
3.错误值的清洗
数据清洗读书笔记1
最新推荐文章于 2021-09-12 23:32:07 发布