文章目录
一、知识发现的基本过程
首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。
一般来说,KDD是一个多步骤的处理阶段,分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。
1. 问题定义阶段
KDD是用于在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。
2. 数据抽取阶段的功能
数据抽取的目的是选取相应的源数据库,并根据要求从数据库中提取相关的数据。 源数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来确定。
3. 数据预处理阶段的功能
数据预处理阶段主要对前一阶段抽取的数据进行再加工,检查数据的完整性及数据的一致性,包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值变成离散值,以便符号归纳等)。 当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在数据仓库生成时完成了。但是当源数据来自多数据源时,它就成为一个重要的方面。在抽取过程中产生的噪声数据不可忽视。数据预处理时KDD的重要阶段,并且花费可能很大。
4. 数据挖掘阶段的功能
运用选定的数据挖掘算法,从数据中提取出用户多需要的知识,这些知识可以用一种特定的方式表示。选择数据挖掘算法有两个需要考虑的因素:
- 不同的数据有不同的特点,因此需要用与之相关的算法来挖掘
- 用户或实际运行系统的要求
5. 知识评估阶段的功能
数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这需要将其剔除;也有可能不满足用户的需求,这需要将整个发现过程回退到前续阶段。如重新选取数据、采用新的数据变换方法等。知识评估是KDD一个重要的必不可少的阶段。
二、数据库中的知识发现处理过程模型
1. 阶梯处理过程模型
- 数据准备
- 数据选择:根据用户的要求从数据库中提取与KDD目标相关的数据
- 数据预处理:针对上一阶段产生的数据进行再加工,检查数据的完整性以及数据的一致性,对其中的噪声数据进行处理,对丢失的数据利用统计学方法进行填补
- 数据缩减:对经过预处理的数据进行必要的再处理,使数据集中在用户的挖掘目标上。
- KDD目标确定
- 挖掘算法确定
- 数据挖掘
- 模式解释
- 知识评价
2. 螺旋处理过程模型
3. 以用户为中心的处理模型
4. 联机KDD模型
5. 支持多数据源多知识模式的KDD处理模型
三、知识发现软件或工具的发展
初略的说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向知识发现解决方案的三个主要阶段。后面两种反应了当前知识发现软件的两个发展方向。
1. 独立的知识发现软件
独立的知识发现软件出现在数据挖掘和知识发现技术研究的早期。当研究人员开发出一种新型的数据挖掘算法后,就在此基础上形成软件原型。
2. 横向的知识发现工具集
3. 纵向的知识发现解决方案
四、知识发现项目的过程化管理
1. IM1的任务与目标
KDD项目的计划阶段,需要确定企业的挖掘目标,选择知识发现模式等。其目的是将企业的挖掘目标嵌入到相应的知识模式中。
2. IM2的任务与目标
KDD的预处理阶段,可用IM2a,IM2b,IM2c,IM2d等分别对应数据清洗,数据选择和数据转换等阶段。其目的是生成高质量的目标数据
3. IM3的任务与目标
KDD的数据挖掘准备阶段。工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识,为最终用户提供可用的模型。
4.IM4的任务与目标
KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。
5. IM5的任务与目标
KDD的知识表示阶段,按指定要求形成规格化的知识。
6.IM6的任务与目标
KDD的知识解释与使用阶段。其目的是根据用户要求直观的输出知识或集成到企业的知识库中。