数据清洗概述（数据清洗读书笔记）

最新推荐文章于 2023-04-06 09:25:23 发布

昔言06

最新推荐文章于 2023-04-06 09:25:23 发布

阅读量402

点赞数

文章标签： html5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48955728/article/details/120201275

版权

1.1数据清洗的背景

1.1.1数据质量概述

数据质量是指在业务环境下，数据符合数据消费者的目的，能满足业务场景具体需求的程度。从适用性的角度看，数据质量是一个相对的概念（与决策有关）。

数据质量的特点：

1.“业务需求”会随时间变化，数据质量也会随时间变化。

2.数据质量可以借助信息系统度量，但独立于信息系统存在。

3.数据质量存在于数据的整个生命周期，随数据的产生而产生，随数据的消失而消失。

1.1.2数据质量的评价指标

1.准确性

2.完整性

3.简洁性

4.适用性（核心标准）

1.1.3数据质量的问题分类

1.基于数据源的“脏”数据

单数据源：

数据质量主要取决与它的模式对数据完整性约束的控制程度

多数据源

多源数据中存在的与模式相关的质量问题主要是名字冲突和结构冲突。

2.基于清洗方式的“脏”数据

独立型“脏”数据

独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据，不需要依赖其他记录或属性检测。

依赖型“脏”数据

依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。

（1）缺失数据包括空值（缺失值和空值）和数据异常

（2）重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。

1.2数据清洗的定义及原理

“脏”数据（同一值的不同表示，拼写错误，不同的命名习惯，不合法的值，空值）>> 数据洗的策略,规则 >> 满足数据质量要求得数据

1.3数据清洗的基本流程

原始数据 >> 数据分析 >> 定义数据清洗的策略和规则 >> 搜寻并确定错误示例 >> 纠正发现的错误 >> 干净数据回流 >> 目标数据

1.4数据清洗的策略

1.一般的数据清洗策略

1.手工清洗策略

2.自动清洗策略

3.特定应用领域的清洗策略

4.特定应用领域无关的清晰策略

2.混合的数据清洗策略

混合的数据清洗策略主要以自动清洗为主。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据清洗概述（数据清洗读书笔记）

1.1数据清洗的背景1.1.1数据质量概述数据质量是指在业务环境下，数据符合数据消费者的目的，能满足业务场景具体需求的程度。从适用性的角度看，数据质量是一个相对的概念（与决策有关）。数据质量的特点： 1.“业务需求”会随时间变化，数据质量也会随时间变化。 2.数据质量可以借助信息系统度量，但独立于信息系统存在。 3.数据质量存在于数据的整个生命周期，随数据的产生而产生，随数据的消失而消失。1.1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。