数据挖掘-数据预处理的必要性及主要任务

数据预处理是数据挖掘的重要环节,包括数据清理、数据集成、数据归约和数据变换等任务。数据清理旨在处理噪声、缺失值和不一致性;数据集成用于合并多个数据源;数据归约降低数据规模,提高挖掘效率;数据变换则将数据转换为适合分析的形式。预处理改善数据质量,确保挖掘结果的准确性和可靠性。
摘要由CSDN通过智能技术生成

数据预处理的必要性及主要任务


1、数据预处理的必要性

数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。

2、数据预处理技术

(1)数据清理:可以用来清除数据中的噪声,纠正不一致。
(2)数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
(3)数据归约:可以通过如狙击、删除冗余特征或聚类来降低数据的规模。
(4)数据变换:可以用来把数据压缩到较小的区间,如0.0到1.0。这可以提高设计距离度量的挖掘算法的准确率和效率。
这些技术不是互相排斥的,可以一起使用。

3.为什么要对数据预处理

数据如果能满足其应用要求,那么它肯定是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性
数据质量的三个要素:准确性、完整性和一致性。
不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。
导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。
不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值