数据清洗(黑马程序员著) 第一章读书笔记

本文介绍了数据清洗的重要性,包括准确性、完整性、简洁性和适用性的评价指标,以及基于数据源和清洗方式的‘脏’数据分类。数据清洗原理、基本流程和方法如缺失值、重复值和错误值的清洗进行了详细阐述,旨在提高数据质量,确保大数据分析的准确性和效率。
摘要由CSDN通过智能技术生成

现实生活中,我们接触到的数据是海量的,来源广泛的,类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据,如果直接使用,会严重的影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。

1.数据质量的评价指标

数据清洗的目的是为了将脏数据洗掉,提高数据质量。而数据质量的评价指标包括四方面:

(1)准确性

指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据,一般就视为是噪声或异常值,可通过常用的异常值检测方法聚类进行处理。

(2)完整性

指数据信息中是否存在缺失的状况。数据缺失的情况可能是整条数据记录的缺失,也可能是数据中的某个字段信息的记录缺失。不完整的数据会使其本身的借鉴价值大大降低。

(3)简洁性

指要尽量选择重要的本质属性,并消除冗余。在数据挖掘时,特征属性的个数越多,数据越容易出现噪声。因此进行决策时,往往要抓住反映问题的主要因素,而不是把问题的细节都搞得很清楚。

(4)适用性

前三个归根结底都是为了数据的实际效用,因此适用性是评价数据质量的核心准则。

2.数据质量的问题分类

(1)基于数据源的‘脏’数据分类

模式层是指数据库的结构,就是关系结构ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值