数据挖掘建模过程
1.定义挖掘目标
- 针对具体的数据挖掘应用需求, 首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此, 我们必须分析应用领域, 包括应用中的各种知识和应用目标, 了解相关领域的情况, 熟悉背景知识, 弄清用户需求。要想充分发挥数据挖掘的价值, 必须对目标有一个清晰明确的定义, 即决定到底想干什么。
2.数据取样
- 明确挖掘目标之后,取样本数据集
标准:
- 相关性
- 可靠性
- 有效性
- 样本并非是全部数据:
- 减少数据处理量
- 节省系统资源
- 使规律性更加凸显出来
- 注意:一定要好严格控制取样质量
- 标准
- 资料完整无缺,各类指标齐全。
- 数据准确无误, 反映的都是正常(而不是异常) 状态下的水平
- 标准
- 对获取的数据, 可再从中进行抽样操作。 抽样的方式是多种多样的, 常见的方式如下
- 随机抽样:在采用随机抽样方式时, 数据集中的每一组观测值都有相同的被抽样的概率。 如按10%的比例对一个数据集进行随机抽样, 则每一组观测值都有10%的机会被取到。
- 等距抽样:如按5%的比例对一个有100 组观测值的数据集进行等距抽样, 则有
100/5 = 20, 等距抽样方式是取第20、40、60、80 和第100这5 组观测值。分层抽样&#x