数据ETL:
包括三个方面,数据抽取(Extract), 清洗(Cleaning),转换(Transform)
数据挖掘一般过程:
1) 定义挖掘目标:熟悉应用领域背景知识,弄清用户需求;
2) 数据抽样:相关性,可靠性,有效性(不一定要使用全部的数据),保证质量;
3) 数据探索:异常值分析,缺失值分析,相关分析和周期性分析;
4) 挖掘建模:确定哪类问题,选用哪种算法;
5) 模型评价:找出最好模型,并根据业务对模型进行解释和应用;
数据探索:
包括数据质量分析和数据特征分析;
1) 数据质量分析 => 主要是“去除”脏数据(缺失值,异常值,不一致值,特殊符号)
缺失值处理方法:删除记录,数据插补,不处理;
异常值分析:简单统计量分析(最大最小范围),36原则,箱型图分析(以四分位和四分位距为基础);
一致性分析:不一致数据主要发生在数据集成过程;
2)数据特征分析 => 通过绘制图表,计算某些特征对数据进行分析;
定量数据:绘制频率分布直方图;
定性数据:饼图和条形图;
对比分析:选择合适的对比标准是关键;
统计量分析:集中趋势度量(均值,中位数,众数),离中趋势度量(极差,标准差,变异系数,四分位数间距);
周期性分析,贡献度分析,相关性分析等等;
数据预处理
包括:数据清洗,数据集成,数据变换和数据规约
数据清洗:缺失值处理(删除,插值,不处理),异常值(不一定剔除,可能有用);
数据集成:实体识别(同名异义,异名同义,单位不统一),冗余属性识别(同属性多次出现,同属性命名不统一);
数据变换:简单函数变换,规范化,连续属性离散化,树形构造,小波变换;
数据规约:属性规约(合并,逐前向后选择,决策树归纳,主成分分析),数据规约(有参数方法,无参数方法);