跨行业数据挖掘标准流程(CRISP-DM ,cross-industry standard process for datamining) 此数据挖掘过程模型于1999年欧盟机构联合起草。通过近几年的发展,CRISP-DM模型在各种数据挖掘过程模型中占据领先位置,采用量达到近60%。本文简单的介绍了CRISP-DM,参考信息主要源自维基百科及其所注的链接。
CRIS-DM模型如下:
主要过程为:商业理解 —— 数据理解 —— 数据准备 —— 建模 —— 模型评估 —— 部署,我们将分别从这六个方面概要的讲述。
商业理解
商业理解(Business Understanding):最开始阶段我们必须从商业的角度上面了解项目需求和最终目标,并将这些需求和目标转化为数据挖掘里的定义和目标。
主要考虑点如下:
- 确定商业目标:明确商业背景、商业目标、可衡量的成功标准
- 评估环境:明确企业资源、需求、约束,风险,沟通,成本代价分析
- 确定数据挖掘目标:明确目标以及可衡量的成功标准
- 制定项目计划
数据理解
数据理解(Data Understanding):从数据收集开始、到熟悉数据,进而对数据的可用性进行评估,发现有用的数据和数据的潜在假设。
主要考虑点如下:
- 收集原始数据:撰写数据收集报告(充分理解数据来源,注意数据集有效时间)
- 描述数据:数据描述报告
- 探索数据:数据探索报告
- 检验数据质量:数据质量报告
数据准备
数据准备(Data Preparation):将原始数据处理成最终建模需要的数据。该过程可能多次执行,且非常耗时,包括特征选择、数据清洗、数据预处理、数据转换等等。主要考虑点如下:
- 数据准备:数据集和数据集描述
- 选择数据:包含/排除数据的准则
- 清洗数据:数据清洗报告,一定要记录数据清洗方法
- 构造数据:派生属性,数据转化、离散、产生新纪录化等等
- 整合数据:合并数据,匹配数据
- 格式化数据:去量纲等
建模
建模(Modeling):使用数据挖掘模型技术进行建模,并对参数进行调优。过程中,可能会需要多次执行数据准备阶段。
主要考虑点如下:
- 选择建模技术:建模技术、建模建设
- 生成测试设计:撰写测试设计文档
- 构建模型:使用的参数、模型以及模型描述
- 评估模型:评估模型并完善参数
模型评估
模型评估(Evaluation):在得到了从数据挖掘角度看是高质量的模型,在部署模型之前,要对模型进行全面的评估。非常重要的一点,就是判断模型是否达到了既定的商业目标,是否有改进空间等。
主要考虑点如下:
- 评估结果:一句商业成功标准评价模型结果、审核模型
- 重申模型:审核模型建立过程
- 确定一下步:最终决定
部署
部署(Deployment):在建模结束后,我们需要把得到的知识或规则应用起来。部署阶段极可能是生成一份报告,也可能是嵌入企业系统等。
主要考虑点如下:
- 规划与部署:部署计划
- 规划监控与维护:计划书
- 最终报告:得到最终报告或陈述
- 回顾项目:经验文档
虽然上述流程采用比例较大,如下图所示:
来自kdnuggets 2007年
但是,实际中我们可以根据自己的需要进行一定程度的修改。