【数据挖掘学习笔记】4.数据预处理

数据预处理是提升数据挖掘质量的关键步骤,包括数据清理、数据集成、数据变换、数据归约和离散化。数据清理涉及处理遗漏值、噪音数据和不一致数据;数据集成关注数据相关性;数据变换通过规范化、数据泛化等手段改善数据;数据归约通过属性选择降低数据复杂性;离散化和概念分层则用于减少属性值并转化数据类型。TF-IDF算法用于提取文章的代表性关键词。
摘要由CSDN通过智能技术生成

数据预处理概述

数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理

数据预处理形式


其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理

例子



预处理方法 ★

数据清理 数据集成与变换 数据归约 离散化和概念分层

1、数据清理

现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。

具体方法:

遗漏值

– 忽略元组
– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值

噪音数据
– 噪音是

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值