数据挖掘浅析

数据ETL:
包括三个方面,数据抽取(Extract), 清洗(Cleaning),转换(Transform)
数据挖掘一般过程:
1) 定义挖掘目标:熟悉应用领域背景知识,弄清用户需求;
2) 数据抽样:相关性,可靠性,有效性(不一定要使用全部的数据),保证质量;
3) 数据探索:异常值分析,缺失值分析,相关分析和周期性分析;
4) 挖掘建模:确定哪类问题,选用哪种算法;
5) 模型评价:找出最好模型,并根据业务对模型进行解释和应用;
数据探索:
包括数据质量分析和数据特征分析;
1) 数据质量分析 => 主要是“去除”脏数据(缺失值,异常值,不一致值,特殊符号)
   缺失值处理方法:删除记录,数据插补,不处理;
   异常值分析:简单统计量分析(最大最小范围),36原则,箱型图分析(以四分位和四分位距为基础);
   一致性分析:不一致数据主要发生在数据集成过程;

2)数据特征分析 => 通过绘制图表,计算某些特征对数据进行分析;
   定量数据:绘制频率分布直方图;
   定性数据:饼图和条形图; 
   对比分析:选择合适的对比标准是关键;
   统计量分析:集中趋势度量(均值,中位数,众数),离中趋势度量(极差,标准差,变异系数,四分位数间距);
   周期性分析,贡献度分析,相关性分析等等;
数据预处理
包括:数据清洗,数据集成,数据变换和数据规约
数据清洗:缺失值处理(删除,插值,不处理),异常值(不一定剔除,可能有用);
数据集成:实体识别(同名异义,异名同义,单位不统一),冗余属性识别(同属性多次出现,同属性命名不统一);
数据变换:简单函数变换,规范化,连续属性离散化,树形构造,小波变换;
数据规约:属性规约(合并,逐前向后选择,决策树归纳,主成分分析),数据规约(有参数方法,无参数方法);
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值