大数据项目开发流程:
数据采集——数据预处理——数据存储——数据分析挖掘——数据可视化
一、数据预处理背景
数据的各种质量
数据质量问题:
1、准确性
数据是正确的,数据存储在数据库中的值对应于真实世界的值
不准确的原因:
①数据收集设备故障
②数据输入错误
③数据传输过程出错
④命名约定、数据代码、输入字段的格式不一致
2、完整性
信息具有一个实体描述的所有必需的部分,在传统在传统关系型数据库中,完整性通常与空值(NULL)有关。一般包括记录的缺失和记录属性的缺失。
不完整的原因:
①涉及个人隐私,无法获取相关属性
②数据输入时,由于人为的疏漏导致
③数据输入或传输时,由于机器的故障导致
3、一致性
在数据库中是指在不同地方存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
①逻辑不一致
②记录规范不一致
4、相关性
数据的相关性是指数据与特定的应用和领域有关。
数据相关性的应用场景:
①构造预测模型时,需要采集与模型相关的数据
②相同的数据,在不同的应用领域中,相关性也是不一样的。
5、时效性
指数据仅在一定时间段内对决策具有价值的属性。数据的时效性很大程度上制约着决策的客观效果。
数据时效性的应用场景:商品推荐、城市交通
6、可信性、可解释性
可信性:数据来源的权威性、数据的规范性、数据产生的时间
可解释性:反映数据是否容易理解
二、数据预处理目的
提升数据质量
重要性:
数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。
目的:
1、达到改进数据的质量,提高数据挖掘过程的准确率和效率。
2、保证数据挖掘的正确性和有效性。
3、通过对数据格式和内容的调整,使得数据更符合挖掘的需要。
三、数据预处理的流程
1、数据清理
数据清理试图填充空缺的值、识别孤立点、消除噪声,并纠正数据中的不一致性。
脏数据: