1.1.1 数据清洗的背景
1.1.1 数据质量概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
数据质量的特点:
(1)“业务需求”会随着时间变化,数据质量也会随时间发生变化。
(2)数据质量可以借助信息系统来度量,但独立于信息系统而存在。
(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.1.2 数据质量的评价指标
数据质量评价的指标主要包括数据的准确性,完整性,简洁性和适用性,其中数据的准确性,完整性,简洁性是为了保证数据的适用性。
1.1.3 数据质量的问题分类
(1)基于数据源的脏数据分类
模式层是指数据库的结构,就是关系结构。实例层是指关系中具体存储的数据记录或元组。
(2)基于清洗方式的脏数据分类
1.2 数据清洗定义
数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有着不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于三个领域,即数据仓库领域、数据挖掘领
第1章 数据清洗概述
最新推荐文章于 2023-12-26 08:06:46 发布
本文介绍了数据清洗的背景、数据质量的评价指标和问题分类,强调了其在数据仓库、数据挖掘和数据质量管理领域的应用。数据清洗涉及数据分析、定义清洗策略、错误实例的发现与纠正,以及常见策略如手工清洗、自动清洗。此外,还探讨了缺失值、重复值和错误值的处理方法,包括忽略、填充、相似度计算和基于近邻排序的算法。
摘要由CSDN通过智能技术生成