数据清洗笔记第一章

本文探讨了数据质量的评价指标,包括准确性、完整性、简洁性和适用性,并详细阐述了数据质量的问题分类,如单数据源和多数据源问题。数据清洗作为提升数据质量的重要手段,涉及独立型和依赖型脏数据的处理,以及缺失值、重复值和错误值的清洗。介绍了数据清洗的基本流程、策略和常见方法,强调了数据清洗的目的是改善而非消除脏数据。
摘要由CSDN通过智能技术生成

1.数据质量的评价指标

准确性丶完整性丶简洁性丶 适用性

2 .数据质量的问题分类

1)基于数据源的“脏”数据分类

①单数据源问题   ②多数据源问题

2)基于清洗方式的“脏”数据分类

①独立型”脏“数据

②依赖型”脏“数据

   缺失数据    重复数据

3.数据清洗原理和定义

 数据清洗技术是提高数据质量的有效方法。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。数据清洗的目的是把“脏”数据洗干净  而不是洗掉“脏”数据

 

4.数据清洗基本流程

 5.数据清洗的策略

1)一般的数据清洗策略

①手工清洗

②自动清洗

③特定应用领域的清洗策略

④与特定应用领域无关的清洗策略

2)混合的数据清洗策略

6.常见的数据清洗方法

1)缺失值清洗

2)重复值的清洗

3)错误值的清洗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值