两种最为常用的数据挖掘方法论

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

鸣筝金粟柱,素手玉房前。

「数仓宝贝库」,带你学数据!

导读:本文介绍两种最为常用的数据挖掘方法论——CRISP-DM方法论和SEMMA方法论。

01

CRISP-DM方法论

CRISP-DM方法论由NCR、Clementine、OHRA和Daimler-Benz的数据挖掘项目总结而来,并被SPSS公司大力推广。CRISP-DM方法论将数据挖掘项目的生命周期分为6个阶段,分别是商业理解、数据理解、数据准备、建模、评估和准备工作,如图1所示。在实际项目进行过程中,由于使用者的目标背景和兴趣不同,有可能打乱各阶段顺承的关系。

dd6dccc0dd33628456c469c193bf8179.png

图1 CRISP-DM方法论

图1呈现了CRISP-DM方法执行流程的6个阶段。各个阶段的顺序不是保持不变的,有时需要在某个阶段向前或向后移动,这取决于每个阶段的结果和下一个阶段的具体任务。箭头指出了各个阶段之间的关联。

在图1中,最外圈的循环表示数据挖掘本身的循环特征。数据挖掘是一项持续的工作。在上一个流程和解决方案中获得的经验与教训,可以给下一个项目提供指导。下面简要介绍每个阶段的特点。

1)商业理解。该阶段的特点是从商业角度理解项目的目标和要求,通过理论分析找出数据挖掘可操作问题,制订实现目标的初步计划。

2)数据理解。该阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发掘有趣的子集,以形成对探索关系的假设。

3)数据准备。该阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,同时对数据进行转换和清洗。

4)建模。该阶段主要是选择和应用各种建模技术,同时对参数进行校准,以达到最优值。通常,同一类数据挖掘问题会有多种建模技术。一些技术对数据格式有特殊的要求,因此常常需要返回到数据准备阶段。

5)评估。在模型最后发布前,根据商业目标评估模型和检查模型建立的各个步骤。此阶段的关键目的是,确认重要的商业问题都得到充分考虑。

6)准备工作。模型完成后,由模型使用者(客户)根据当时的背景和目标完成情况,决定如何在现场使用模型。

02

SEMMA方法论

除了CRISP-DM方法论,SAS公司还提出了SEMMA方法论。其与CRISP-DM方法论内容十分相似,流程为定义业务问题、环境评估、数据准备、循环往复的挖掘过程、上线发布、检视。其中循环往复的挖掘过程包含探索、修改、建模、评估和抽样5个步骤,如图2所示。

503ea025cf94ea350d771d3694a3df49.png

图2  SEMMA方法论

1)抽样。该步骤涉及数据采集、数据合并与抽样操作,目的是构造分析时用到的数据。分析人员将根据维度分析获得的结果作为分析的依据,将散落在公司内部与外部的数据进行整合。

2)探索。这个步骤有两个任务,第一个是对数据质量的探索。变量质量方面涉及错误值(年龄=-30)、不恰当(客户的某些业务指标为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、不一致(收入单位为人民币,而支出单位为美元)、不平稳(某些数据的均值变化过于剧烈)、重复(相同的交易被记录两次)和不及时(银行客户的财务数据更新滞后)等。探索步骤主要解决错误的变量是否可以修改、是否可以使用的问题。比如,缺失值很多,平稳性、及时性很差的变量不能用于后续的数据分析,而缺失值较少的变量需要进行缺失值填补。第二个是对变量分布形态的探索。对变量分布形态的探索主要是对变量偏态和极端值进行探索。由于后续的统计分析大多是使用参数统计方法,这要求连续变量最好是对称分布的,这就需要我们了解每个连续变量的分布情况,并制定好变量修改的方案。

3)修改。根据变量探索的结论,对数据质量问题和分布问题涉及的变量分别做修改。数据质量问题涉及的修改包括错误编码改正、缺失值填补、单位统一等操作。变量分布问题涉及的修改包括函数转换和标准化,具体的修改方法需要与后续的统计建模方法相结合。

4)建模。根据分析的目的选取合适的模型,这部分内容在1.3节已经做了详细的阐述,这里不再赘述。

5)评估。这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监督学习使用ROC曲线和提升度等技术指标评估模型的预测能力。

- END -

本文摘编自《金融商业算法建模:基于Python和SAS》,经出版方授权发布。

8d94928169cf185a5a02a58cd6bd36c6.png

推荐语:多位金融大数据专家撰写,贯穿金融业务全流程,涵盖分析框架、模型算法、模型评估、模型监控、算法工程化完整闭环 。

赠书

    按以下方式和【Python爬虫与数据挖掘】互动,即有机会获赠《金融商业算法建模:基于Python和SAS》一书

活动方式:在本方公众号后台回复“送书”参与活动,届时会在参与的小伙伴中抽取1名幸运鹅!

    活动时间:截至11月11日20点(周三)开奖,双11不见不散。

    快快拉上你的小伙伴参与进来吧~

------------------- End -------------------

往期精彩文章推荐:

6ccc4c3c277361f7228face4caf92a2d.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值