一、总过程
二、数据清洗·
2.1什么是数据清洗?
●删除原始数据集中的无关数据、重复数据、平滑噪声数据
●筛选掉与主题无关的数据
●处理缺失值、异常值等
2.2.1缺失值处理方法
2.2.2数据插补详解
2.3.1异常值处理方法
三、数据集成
3.1什么是数据集成?
将多个数据源合并
存放在一个一 致的数据存储 (如数据仓库)中
3.2处理方法
实体识别
数据冗余·
3.3.1实体识别
3.3.2数据冗余
四、数据规约
4.1什么是数据规约
复杂的数据分析和挖掘时间很久产生更小的数据集
同时保持原数据完整性在规约后的数据集上进行分析和挖掘将更有效率
4.2形式
属性规约 数值规约
4.2.1 属性规约
4.2.2 数值规约
合并属性:将一些旧数据合并为新属性
逐步向前选择: 从一个空属性集开始r每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定调值约束为止。
逐步向后删除:
从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定和值约束为止。
五、数据变换
5.1什么是数据交换
5.2.1简单函数交换
5.2.2规范化
5.2.3属性构造
5.2.4连续属性离散化