数据挖掘方法论crisp-DM

CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan2005年合著的论文trands in data mining and knowledge discovery )

CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象(从一般到具体)层次构成的任务集合:阶段(phase)、一般任务(generic task)、具体任务(specialized task)和过程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干具体任务,每个具体任务由若干过程实例来完成。

CRISP-DM过程描述

  CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.

1: business understanding: 即商业理解. 这个最开始的阶段关注从商业角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划.

一般任务:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。

2.data understanding: 数据的理解.数据理解阶段由最初数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。

一般任务:收集原始数据、描述数据、探索数据、检验数据质量。

3: data preperation: 数据的准备.数据准备阶段包括了从最初原始数据构建最终数据集(作为建模工具的输入)的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。其任务既包括表、记录和属性的选择,也包括为建模工作准备数据的转换和清洗。

一般任务:选择数据、清洗数据、构造数据、整合数据、格式化数据。

4:modeling:模型.在项目的这个阶段,会选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。

一般任务:选择建模技术、生成测试计划、构建模型、评估模型(参数设置等技术角度)。

5:evaluation: 评价。在项目的这个阶段,你已经构建了一个(或多个)从数据分析角度看似高质量的模型。不过在最终部署模型之前,还要对模型进行较为全面的评价,重审构建模型的那些步骤以确认它能正确达到商业目的。另一个关键目标是判断是否有些重要的商业问题还没有被充分考虑。这个阶段的最后,还应该确定使用数据挖掘结果得到的决策是什么

一般任务:评价结果、重审过程、确定下一步。

6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)

一般任务:规划部署、规划监控与维护、产生最终报告、回顾项目。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值