数据挖掘流程
1.数据探索
1.1 数据质量分析
a. 缺失值
原因:有些信息暂时无法获取或者代价太大;有些信息被遗漏;属性值影响
影响:丢失大量有用信息;模型的不确定性更加显著,蕴含的规律难以把握;不可靠的输出
处理方法:删除存在缺失值的记录;插补;不处理
b.异常值
原因:录入错误、含有不合理数据
处理方法:简单统计量分析;箱型图分析等
c.一致性分析:数据的矛盾性、不相容性
1.2 数据特征分析
a.分布分析:极差、方差、组距、频率等
b.对比分析:绝对比较、相对比较
1.3 统计量分析
a.集中趋势:均值(对极端值很敏感)、中位数、众数
b.离中趋势:极差、标准差、变异系数、四分位数间距
1.4 周期性分析:趋势
1.5 贡献度分析:二八法则
1.6 相关性分析:属性相关性
2.数据预处理
2.1 数据清洗:删除原始数据中无关、重复的数据,平滑噪声,筛选掉与挖掘主题无关的数据,处理缺失值和异常值
2.2 数据集成:将多个数据源合并存放在一个一致的数据存储中的过程
3.数据变换
1.简单函数变化:平方、开方、取对数
2.规范化:最小最大值、零均值、小数定标
4.连续属性离散化
1.离散化:等宽、等频、基于聚类
2.属性构造:利用已有的属性构造新属性
3.小波变换:多分辨率、通过伸缩和平移对信号进行多尺度分析
5 数据规约
1.属性规约: 包括增加和删除属性
2.数值规约: 选择替代的、较小的数据来减少数据量