要实现对数据价值的深度发掘,数据挖掘技术无疑是有效的手段之一。对于企业来说,要开展数据挖掘项目,就必须要了解数据挖掘项目是区别于传统的软件开发类项目,其呈现出复杂性高、周期长、不确定高等特点,特别是不确定性高,是其典型的特点,主要体现在数据的不确定性、结果的不确定性和方案的不确性等方面,这样就导致整个数据挖掘项目管控难度高,因此一个行之有效的数据挖掘方法论(明确的流程模型)是非常有必要的。
行业数据挖掘方法论都有哪些?
长期以来,随着数据挖掘市场的发展和成熟,由不同的组织机构提出过很多的方法论,如CRISP-DM、SEMMA、5A等。
1、业务理解(business understanding)
业务理解,指从业务角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的初规划。
2、数据理解(data understanding)
数据理解,指从数据收集开始,然后接着是一系列活动,这些活动的目的是:熟悉数据,甄别数据质量问题、发现对数据的真知灼见、或者探索出令人感兴趣的数据子集并形成对隐藏信息的假设。
3、数据准备(data preparation)
数据准备,指从初原始数据构建终建模数据的全部活动。数据准备很可能被执行多次并且不以任何既定的秩序进行。包括为建模工作准备数据的选择、转换、清洗、构造、整合及格式化等多种数据预处理工作。
4、建立模型(modeling)
建立模型,指选择和使用各种建模技术,并对其参数进行调优。一般地,相同数据挖掘问题类型会有几种技术手段。某些技术对于数据形式有特殊规定,这通常需要重新返回到数据准备阶段。
数据挖掘是使用模式识别逻辑来识别样本数据集中的趋势,并根据更大的数据池推断这些信息,而数据仓库是提取和存储数据以便于报告的过程。