数据预处理及相应的Rapidminer操作

数据预处理


数据挖掘中主要用于数据预处理的方法有以下几种:

1. 聚集(Aggregation

2. 抽样(Sampling

3. 维归约(DimensionalityReduction

4. 特征子集选择(Feature subset selection

5. 特征创建(Feature creation

6. 离散化(Discretization)和二元化(Binarization)

7. 属性变换

练习时测试用的测试数据集可以在【Repository>>Samples>>data】中获取示例数据集;

 

 


聚集(Aggregation



聚集是指将两个或多个对象合并成单个对象;

聚集的目的

– 减少数据

·      减少属性或数据对象的个数

·      节省数据挖掘算法的运行时间和空间

– 尺度提升

·      城市聚集成区域、省、国家,等等

·      产生新的模式

– 更“稳定”的数据

·      聚集的数据会有较小的变异性

·      突出数据的趋势和轨迹

聚集方法在Rapidminer中的实现:

Rapidminer中聚集对应的算子是 Aggregate

>>基本流程


 >>参数面板

   

 

 


抽样(Sampling



抽样是指选择数据对象子集,抽取的对象称作样本

抽样的目的

降低数据处理的费用和时间;

随机抽样方式

·      无放回抽样:被选中的对象从待选对象集中删除;

·      有放回抽样:被选中的项不从待选对象集中删除,相同的对象可能被多次抽出;

随机抽样方法

·      简单随机抽样:选取任何对象的概率相等;

·      分层抽样:划分待选对象集为多个子集,分别从各个子集随机抽样(一般根据类标号划分子集),有以下2种方式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值