CRISP-DM 数据挖掘通用流程

数据挖掘和软件一样,“并非是几个天才的神秘劳动成果,而是分工明确,组织严密的工程化过程……”

640?wx_fmt=jpeg

正如软件工程有严格的各种模型,比如瀑布模型,数据挖掘一样有一系列的各种通用的流程,如果按照这些流程处理,就会把一个数据挖掘项目,变成按部就班的流程化工作,而不需要天才般创造性的思维和天赋。

早在1996年的时候,数据挖掘还是一个新生的事物,无论是市场还是应用都处于萌芽状态。由Daimlerhrysler(后来的Daimler-Benz:戴姆勒-奔驰(这个名字不用介绍了吧))

640?wx_fmt=jpeg

SPSS(玩统计和数据分析的,这个也不用介绍了吧)

 

640?wx_fmt=jpeg

 

以及NCR(天睿Teradata的母公司):

 

640?wx_fmt=jpeg

三家业界大佬联手起草了CRISP-DM标准流程模型,后来由欧洲委员会资助并且成立了相关联盟,最后成为了数据挖掘目前最主流的一种通用标准流程。

 

今天给大家简单介绍一下这个流程模型,如下:

640?wx_fmt=jpeg

从技术上说,数据挖掘主要就是构建四大类的模型:这些模型主要的工作还是对数据进行描述、总结和提炼。

640?wx_fmt=jpeg

从互联网上流行的所谓十大经典算法就可以看出来,分类占的比重还是最大的。

640?wx_fmt=jpeg

比较流行的数据挖掘流程,一共有三种,分布是

SEMMA:SAS提出的标准流程,主要由:数据取样、特征探索、数据调整、模型研发、综合解释组成。

5A:这也是SPSS提出的,包括了访问、分析、评估、行动和自动化

最后就是我们今天要说的CRISP-DM模型了

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

虾神说D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值