大数据预处理技术:第一章:数据预处理总述

大数据项目开发流程:

数据采集——数据预处理——数据存储——数据分析挖掘——数据可视化

一、数据预处理背景

数据的各种质量

数据质量问题:

1、准确性

数据是正确的,数据存储在数据库中的值对应于真实世界的值

不准确的原因:

①数据收集设备故障

②数据输入错误

③数据传输过程出错

④命名约定、数据代码、输入字段的格式不一致

2、完整性

信息具有一个实体描述的所有必需的部分,在传统在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。

不完整的原因:

①涉及个人隐私,无法获取相关属性

②数据输入时,由于人为的疏漏导致

③数据输入或传输时,由于机器的故障导致

3、一致性

在数据库中是指在不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

①逻辑不一致

②记录规范不一致

4、相关性

数据的相关性是指数据与特定的应用和领域有关。

数据相关性的应用场景:

①构造预测模型时,需要采集与模型相关的数据

②相同的数据,在不同的应用领域中,相关性也是不一样的。

5、时效性

指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。

数据时效性的应用场景:商品推荐、城市交通

6、可信性、可解释性

可信性:数据来源的权威性、数据的规范性、数据产生的时间

可解释性:反映数据是否容易理解

二、数据预处理目的

提升数据质量

重要性:

数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。

目的:

1、达到改进数据的质量,提高数据挖掘过程的准确率和效率。

2、保证数据挖掘的正确性和有效性。

3、通过对数据格式和内容的调整,使得数据更符合挖掘的需要。

三、数据预处理的流程

1、数据清理

数据清理试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。

脏数据:

  • 21
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值