第1章 数据清洗概述

本文介绍了数据清洗的背景、数据质量的评价指标和问题分类,强调了其在数据仓库、数据挖掘和数据质量管理领域的应用。数据清洗涉及数据分析、定义清洗策略、错误实例的发现与纠正,以及常见策略如手工清洗、自动清洗。此外,还探讨了缺失值、重复值和错误值的处理方法,包括忽略、填充、相似度计算和基于近邻排序的算法。
摘要由CSDN通过智能技术生成

1.1.1 数据清洗的背景
1.1.1 数据质量概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
数据质量的特点:
(1)“业务需求”会随着时间变化,数据质量也会随时间发生变化。
(2)数据质量可以借助信息系统来度量,但独立于信息系统而存在。
(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.1.2 数据质量的评价指标
数据质量评价的指标主要包括数据的准确性,完整性,简洁性和适用性,其中数据的准确性,完整性,简洁性是为了保证数据的适用性。
1.1.3 数据质量的问题分类
(1)基于数据源的脏数据分类
在这里插入图片描述
模式层是指数据库的结构,就是关系结构。实例层是指关系中具体存储的数据记录或元组。
(2)基于清洗方式的脏数据分类
在这里插入图片描述
1.2 数据清洗定义
数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有着不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于三个领域,即数据仓库领域、数据挖掘领

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值