数据预处理
数据挖掘中主要用于数据预处理的方法有以下几种:
1. 聚集(Aggregation)
2. 抽样(Sampling)
3. 维归约(DimensionalityReduction)
4. 特征子集选择(Feature subset selection)
5. 特征创建(Feature creation)
6. 离散化(Discretization)和二元化(Binarization)
7. 属性变换
练习时测试用的测试数据集可以在【Repository>>Samples>>data】中获取示例数据集;
聚集(Aggregation)
聚集是指将两个或多个对象合并成单个对象;
聚集的目的
– 减少数据
· 减少属性或数据对象的个数
· 节省数据挖掘算法的运行时间和空间
– 尺度提升
· 城市聚集成区域、省、国家,等等
· 产生新的模式
– 更“稳定”的数据
· 聚集的数据会有较小的变异性
· 突出数据的趋势和轨迹
聚集方法在Rapidminer中的实现:
Rapidminer中聚集对应的算子是 【Aggregate】;
>>基本流程
>>参数面板
抽样(Sampling)
抽样是指选择数据对象子集,抽取的对象称作样本;
抽样的目的
降低数据处理的费用和时间;
随机抽样方式
· 无放回抽样:被选中的对象从待选对象集中删除;
· 有放回抽样:被选中的项不从待选对象集中删除,相同的对象可能被多次抽出;
随机抽样方法
· 简单随机抽样:选取任何对象的概率相等;
· 分层抽样:划分待选对象集为多个子集,分别从各个子集随机抽样(一般根据类标号划分子集),有以下2种方式: