数据清洗学习笔记

数据清洗学习笔记

第一章数据清洗概述

数据清洗第一章笔记
1.1 数据清洗的背景
当今时代,企业信息化的要求越来越迫切。由于海量数据的来源是广泛的,数据中会夹杂着不完整、重复以及错误的数据,因此对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.1.1数据质量的概述
数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景需求的程度。数据质量是一个相对的概念(与决策有关)。不同的决策者对数据的质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。
1.1.2数据质量的评价指标:准确性,完整性,简洁性和适应性(核心准则)。

1.1.3数据的质量问题而分类

数据质量的问题分为数据源的“脏”数据和清洗方式的“脏”数据

1.基于数据源的“脏”数据
单数据源:
数据质量主要取决与它的模式对数据完整性约束的控制程度
多数据源
多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
2.基于清洗方式的“脏”数据
独立型“脏”数据
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
依赖型“脏”数据
依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
(1)缺失数据包括空值(缺失值和空值)和数据异常
(2)重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。

1.2数据清洗的定义

数据清洗技术是提高数据质量的有效方法。在不同的领域有不同的方法,所以对于数据清洗没有一个公认统一的定义。但是我们只要明确数据清洗的目的以及目前主要应用的领域即可。

1.3数据清洗的原理

“脏”数据-------数据的清洗策略、规则---------满足数据质量要求的数据

我们数据清洗的主要目的就是解决“脏”数据问题。

1.4数据清洗的基本流程

  1.4.1 数据分析:数据清洗的前提和基础,通过人工检测或者计算机分析程序对原始数据进行检测分析,得出原始数据中存在的问题。

  1.4.2 定义数据清洗的规则和策略

  1.4.3 搜寻并确定错误实例

  1.4.4 纠正发现的错误:属性分离,确认并改正,标准化

  1.4.5 干净数据回流

1.5数据清洗的策略
1.一般的数据清洗策略
1.手工清洗策略
2.自动清洗策略
3.特定应用领域的清洗策略
4.特定应用领域无关的清晰策略
2.混合的数据清洗策略
混合的数据清洗策略主要以自动清洗为主。
1.6常见的数据清洗方法
缺失值的清洗 忽略缺失值和填充缺失值数据
重复值的清洗 相似度计算,基于基本近邻排序算法
错误值的清洗 统计分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值