数据预处理
数据挖掘中主要用于数据预处理的方法有以下几种:
练习时测试用的测试数据集可以在【Repository>>Samples>>data】中获取示例数据集;1. 聚集(Aggregation)2. 抽样(Sampling)3. 维归约(Dimensionality Reduction)4. 特征子集选择(Feature subset selection)5. 特征创建(Feature creation)6. 离散化(Discretization)和二元化(Binarization)7. 属性变换
聚集(Aggregation)
聚集是指将两个或多个对象合并成单个对象;
聚集的目的
聚集方法在Rapidminer中的实现:– 减少数据
- 减少属性或数据对象的个数
- 节省数据挖掘算法的运行时间和空间
– 尺度提升
- 城市聚集成区域、省、国家,等等
- 产生新的模式
– 更“稳定”的数据
- 聚集的数据会有较小的变异性
- 突出数据的趋势和轨迹
Rapidminer中聚集对应的算子是 【Aggregate】