数据挖掘建模过程

数据挖掘建模包括定义挖掘目标、数据取样、数据探索、数据预处理、挖掘建模和模型评价六个阶段。确定目标需要分析应用领域和用户需求;数据取样通过随机、等距、分层或起始顺序等方式进行,确保样本的质量和代表性;数据探索涉及异常值、缺失值、相关性和周期性分析;数据预处理是模型构建前的关键步骤;挖掘建模选择合适的算法构建模型;最后通过模型评价验证模型的效果和准确性。
摘要由CSDN通过智能技术生成

数据挖掘建模过程

1.定义挖掘目标
  • 针对具体的数据挖掘应用需求, 首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此, 我们必须分析应用领域, 包括应用中的各种知识和应用目标, 了解相关领域的情况, 熟悉背景知识, 弄清用户需求。要想充分发挥数据挖掘的价值, 必须对目标有一个清晰明确的定义, 即决定到底想干什么。
2.数据取样
  • 明确挖掘目标之后,取样本数据集

标准:

  1. 相关性
  2. 可靠性
  3. 有效性
  • 样本并非是全部数据:
    1. 减少数据处理量
    2. 节省系统资源
    3. 使规律性更加凸显出来
  • 注意:一定要好严格控制取样质量
    • 标准
      1. 资料完整无缺,各类指标齐全。
      2. 数据准确无误, 反映的都是正常(而不是异常) 状态下的水平
  • 对获取的数据, 可再从中进行抽样操作。 抽样的方式是多种多样的, 常见的方式如下
    • 随机抽样:在采用随机抽样方式时, 数据集中的每一组观测值都有相同的被抽样的概率。 如按10%的比例对一个数据集进行随机抽样, 则每一组观测值都有10%的机会被取到。
    • 等距抽样:如按5%的比例对一个有100 组观测值的数据集进行等距抽样, 则有
      100/5 = 20, 等距抽样方式是取第20、40、60、80 和第100这5 组观测值。分层抽样&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值