数据清洗读书笔记1

第一章.数据清洗概述
由于海量的数据来源是广泛的,数据类型也是多尔繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性以及效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
1.1数据清洗的背景
1.1.1数据质量概述
概念: 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能能满足业务场景具体需求的程度。
从适用性的角度来看,数据质量是以一个相对的概念(与决策者有关),不同的决策者对数据质量的高低要求也是不同的。
数据质量的显著特点如下:
(1)“业务需求”会随时间变化,数据质量也会随时间发生变化。
(2)数据质量可以借助信息系统度量,但独立于信息系统存在。
(3)数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。
1.1.2数据质量的评价指标
数据质量的评价指标主要包括数据的准确性、完整性,简洁性以及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。
1.准确性
数据的准确性就是要求数据中的噪声尽可能的少。可用最常用的异常值检测方法聚类进行处理。
2.完整性
数据的完整性是指数据信息是否存在缺失的情况。可能是整条数据记录的缺失,也可能是数据中某个字段信息的缺失。
3.简洁性
简洁性就是尽量选择重要的本质属性,并消除冗余。(在数据挖掘的过程中,特征的个数越多产生噪声的机会越大)
4.适用性
适用性是评价数据质量的重要标准,从数据的实际效用上讲,适用性才是评价数据质量的核心准则。
1.1.3数据质量的核心问题分类
数据质量的问题可以分为两类:
一类是基于数据源的“脏”数据分类
(1)单数据源问题
单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。
(2)多数据源问题
多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。除模式相关的质量问题外,许多质量问题只出现在实例层次上。
(模式层是指数据库的结构,就是关系结构。实例层是指关系中具体存储的数据记录或元组)
另一类是基于清洗方式的“脏”数据分类
(1)独立型“脏”数据
可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。
(2)依赖型“脏”数据
缺失数据:主要包括数据空值和数据异常。
重复数据:是指一个现实实体在数据集合中以多个不完全相同的记录表示。
1.2数据清洗的定义
数据清洗是提高数据质量的有效方法。
1.3数据清洗的原理

需要注意的是,数据清洗得目的是解决“脏”数据问题,既不是将“脏”数据洗掉。而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。
1.4数据清洗的基本流程
1.数据分析
2.定义数据清洗的策略和规则
3.搜寻并确定错误实例
4.纠正发现的错误
5.干净数据回流
1.5数据清洗的策略
1.一般的数据清洗策略
手工清洗策略
自动清洗策略
特定应用领域的清洗策略
与特定应用领域无关的清洗策略
2.混合的数据清洗策略
以自动清洗为主
1.6常见的数据清洗方法
1.缺失值的清洗
忽略缺失值数据方法
填充缺失值数据方法
2.重复值的清洗
目前清洗重复值得基本思想是“排序和合并”。清洗重复值的主要方法有相似度计算和基于基本近邻排序算法等。
3.错误值的清洗

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R语言是一种功能强大的开源编程语言和环境,广泛应用于数据分析和统计建模。入门R语言的过程,我可以分享一些我自己的笔记和经验。 首先,入门R语言需要准备好安装R语言和RStudio的环境。RStudio是R语言的一个集成开发环境,提供了更加友好的界面和便捷的操作。安装完毕后,我们可以打开RStudio开始学习。 接下来,建议通过在线教程、视频教程或者书籍来学习R语言的基础知识和语法。了解R语言的数据结构,如向量、矩阵、数据帧等,掌握R语言的基本运算和函数操作等非常重要。 在学习过程中,我发现通过实际操作来巩固知识是非常有效的。可以尝试使用R语言处理一些简单的数据集,如读取数据数据清洗数据可视化等。这样可以更好地理解R语言的功能和应用。 另外,熟悉R语言的常用包和函数也是非常重要的。R语言有很多强大的数据分析包,如ggplot2、dplyr和tidyr等。通过学习它们的基本用法和常见函数的操作,可以更好地进行数据分析和统计建模。 同时,我也建议多参与R语言的相关社区和论坛,与其他R语言爱好者交流和分享经验。这不仅可以解决遇到的问题,还能学习到更多实际案例和应用技巧。 最后,持续学习和实践是掌握R语言的关键。不断地阅读学习材料、参与项目和练习编程,都是提高R语言技能的有效途径。 希望以上简要的笔记对入门R语言和数据分析有所帮助。R语言具有强大的数据分析能力,相信通过不断学习和实践,你可以在数据分析领域取得更好的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值