数据预处理(方法介绍)

本文介绍了数据预处理的关键步骤,包括数据清洗(缺失值处理、噪声数据处理)、数据集成、数据变换(光滑、属性构造、聚集、规范化、离散化)和数据归约(属性选择、数据抽样)。通过这些方法,可以有效地整理和准备数据,为后续的数据分析和挖掘做好准备。
摘要由CSDN通过智能技术生成

常见的数据预处理方法有:数据清洗、数据集成、数据变换和数据归约。

1.      数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。

2.      数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。

3.      数据变换:找到数据的特征表示,用维度变换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。

4.      数据归约:是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量,主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。


一  数据清洗

1 缺失值处理

1.1   删除法

在不影响数据结构的情况下,删除法是最简单的将缺失值转变为完整数据集的方法。根据数据处理的不同角度,删除法可分为以下4种:

(1)      删除观测样本;

(2)      删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除;

(3)      使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析;

(4)      改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加工&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值