知识类数据挖掘技术

知识类数据挖掘技术

在用统计分析类数据挖掘技术进行数据分析时,企业管理人员或管理顾问必须分析开始之前就知道变量是什么,他们需要分析什么。如果他们不知道所分析的对象或对所分析的变量不清楚,那就很难对数据仓库中如此众多的数据和对象采用统计类数据挖掘技术进行商业分析。但是他们往往凭直觉,感到在数据背后隐藏着某些市场规律和商业知识。此时,统计类数据挖掘工具就难以承担重任,人们就不会对手中的数据挖掘技术感到满意,他们需要一些功能更加强大的,依靠数据驱动的,而不是依靠商业分析人员驱动的数据挖掘技术来完成数据挖掘分析任务。

l  知识发现系统的一般结构

*  知识发现的定义:知识发现可以看成一种有价值的信息搜索过程,它不必预先提出假设或提出问题,但仍能找出那些非预期的令人关注的信息;这些信息表示数据元素之间的关系和模式,它也能通过完整的、全面的信息发现和数据分析,找到有价值的商业规则。它是随着数据库中开始存储了大量的业务操作数据,开始使用机器学习的方法,分析这些数据开始的。传统的数据查询和分析技术,要求所提出的问题是恰当的。知识发现技术则是自身决定所要提出的问题,然后不断地对问题进行深入询问,持续地进行深入探索。

*  知识发现系统的结构:在知识发现系统中,各部分之间的区分并不很清楚。知识发现系统中主要的输入是源于数据仓库的数据、商业分析员得指导,以及存储在知识库中先验知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供大量的抽取算法,以便生成辅助模式和关系。然后对这些辅助模式和关系进行评价,它们中的一些被认为感兴趣的,被发送给商业分析员。有些发现可能还要加入到知识库中,以便为后继知识发现提供先验的知识。

ü  知识发现系统管理器:控制并且管理整个知识发现的过程,商业分析员的输入和知识库中的信息用于驱动以下三个过程:数据选择过程抽取算法的选择及使用过程发现的评价过程。系统管理器也帮助生成需要发送给商业分析员的发现结果描述,它还帮助将合适的发现结果存储与知识库,作为下一步知识发现的先验知识。知识发现引擎的管理层知识发现系统管理器管理

ü  知识库和商业分析员:知识库包含源于各方面的知识。包括:元数据和应当注意的关键数据字段、分析中用于产生数据要求的商业规则、任何数据层次等,其目的是 按照一种有效的方式指导对关注性信息的发现。另外,通过存储新的知识发现结果以驱动且增强后继使用,可以提高知识发现工具的能力。

ü  数据仓库的数据库接口:为了提高效率,知识发现系统的数据库接口可以直接和数据仓库通信。

ü  数据选择:确定从数据仓库中需要抽取的数据及数据结构。知识库指导数据选择构件选择需要抽取的数据以及抽取方式。

ü  知识发现引擎:知识发现引擎将知识库中的抽取算法提供数据选择构件抽取算的数据,其目的是抽取数据元素间的模式和关系。许多数据挖掘算法可以与知识发现系统结合,作为知识发现引擎,例如数据依赖、分类规则、聚类、概括数据、偏差检查、归纳和模糊推理等。

ü  发现评价:用于分析关注性模式的技术包括统计的重点、覆盖级别的置信度因子,以及可视化分析。

ü  发现描述

l  知识发现技术

*  规则型知识挖掘技术:规则归纳是数据挖掘的一种主要形式,而且是无教师学习系统中最普遍的知识发现形式。它也是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在大型数据库中“淘金。这里的金子指人们感兴趣的规则——能够提供一些原先不知道,或者不能明确表达出来的有关数据库的信息。

ü  关联规则的基本概念

在关联规则系统中,规则本身是“如果条件怎么样、怎么样、怎么样,那么结果或情况就怎么样”的简单形式。可以表示为“ ”关联规则,它包括两个部分:左部 为前件,右部 为后件。前件可以包括一个或多个条件,在某个给定的正确率中,要使后件为真,前件中的所有条件必须都为真。后件一般只包含一种情况,而不是多种情况。简言之,就是不同项的相关性。

关联规则根据根据规则中所处理的值的类型可以分成布尔关联规则和量化关联规则两种。

关联规则根据规则中的项或属性涉及到的维数,分为单维规则和多维规则。

关联规则根据涉及到的不同的抽象层次,分为单层规则和多层规则

关联规则在实际应用中用SQL语言就可以很好地处理。

ü  关联规则的应用

关联规则的应用须有应用目标,在实际应用中可以以前件为目标,以后件为目标,以正确率为目标,以覆盖率为目标或者以“兴趣度”为目标。

1.         以前件为目标的关联规则是将前件等于某值的所有规则收集起来显示给用户。

2.         以后件为目标的关联规则则是查找后件等于某值的所有规则,用来了解什么因素与后件有关或对后件有什么影响。

3.         以正确率为目标的关联规则,主要以正确率表示前件为真时,后件为真的可能性。正确率高表示规则比较可靠。正确率有时亦称为置信度,对于“ ”关联规则,其置信度或正确率可以定义为:

置信度( )=

有时,对用户来说最重要的是规则的正确率。正确率达到80%90%以上的规则,表明发现的关系是很强的。即使它们对数据库的覆盖率较低,出现次数有限,只要抓住这些规则,成功的可能性就比较高。

4.以覆盖率为目标的关联规则表示数据库中适用于规则的记录数量。其覆盖率可以定义为

                覆盖率( =

            覆盖率高表示规则经常被使用,由取样技术或数据库性质得到某种现象的可能性也比较大。有时用户想知道那些是最普通的规则或那些规则最容易应用。将规则按覆盖率排序,用户就能很快知道那些情况是数据库中经常出现的。

4.         以“兴趣度”为买不到额关联规则是评价人们使用关联规则以后,对所产生规则的感兴趣程度,它和正确率和覆盖率有关

购物篮分析:设全域为商店出售的商品的集合,一次购物购买(即事务)的商品为项目全集的子集。若每种商品用一个布尔变量来表示该商品的有无,则每个购物篮可以用一个布尔向量表示,通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式,这些模式可用关联规则描述。

定义:令I={i1,i2,…in}是项目集,D是全体事务的结合,事务TI上的一个子集,集合 ,每个事务用唯一的标识TID来标识,关联规则则是形如 的蕴含式,其中 ,且 称为规则的条件, 称为规则的结果。

关联规则的算法:

Apriori算法

频繁模式增长算法

*  神经网络型知识挖掘技术

Ø  神经网络及其学习方法

神经网络(Nerual Net)是指由大量的神经元互联而成的网络,有点像服务器互联而成的因特网。它主要由“神经元”的互联,或按曾组织的节点构成,通常,神经网路模型由三个层次组成:输入层,中间层(亦称隐层)和输出层。在每个神经元求得输入值后,再汇总计算总输入值;由过滤机制比较总输入值,确定网络的输出值。可以通过连接一组神经元来模型化复杂行为,当修改连接层的“接度”或权值时,神经网络就进行了学习或“训练”。

神经网络将每个连接看做一个处理单元(PE),试图模拟人脑神经元的功能。处理单元(PE)采用一系列的数学函数,通过汇总和转换,对数据进行处理。一个PE的功能有限,但多个PE连接系统后,就可创建一个智能模型。PE能够以多种方式进行连接,为了精确地拟合建模数据,可能需要反复训练多次,甚至成千上百次,处理单元PE需要与输入/输出层的单元进行连接。在网络的训练过程中,对输入单元和输出单元的连接强度(权值)进行修改,其修改的值变化是根据它对所产生结果的重要性来确定的。连接的强度依赖于反复训练过程中赋予它的权值,训练过程中采用称为学习规则的数学方法调节权值。神经网络的训练是根据历史样本数据反复进行的。训练过程中PE对数据进行汇总和转换,它们之间的连接被赋予不同的权值。为对一个样本进行预测,要对网络尝试各种不同的方案,当输出结果与已知结果的吻合达到一定的精度或满足其他结束准则时,就停止对网络的训练,此时,网路就可以用来对所需要分析的数据进行预测。

 

 

 

 

 

 

 

 


输入层                       中间层           输出层

 

所有神经网络的工作过程主要有两个阶段:学习阶段和工作阶段。学习方式则有三种:有监督(教师)学习、无监督(教师)学习和强化学习。有教师学习过程需要给定结果,并且给出反馈值;无教师学习的过程则不用指定结果,不给出期望反馈值,按照网络自认为合适的方式组织数据。在强化学习过程中,外部环境对系统输出结果给出奖、惩信,学习系统功过强化受奖的动作来改善系统性能。

神经网络在学习过程中必须依靠学习算法,矫正学习过程中的误差或偏离,这些算法有误差纠正法,竞争学习法。

神经网络从经验中学习,经常用于发现一组输入数据一个结果之间的未知联系。

Ø  基于神经网络的数据挖掘:基于神经网络的数据挖掘技术数以百计,较常使用的有基于自组织网络的数据挖掘技术和模糊神经网络类型的数据挖掘技术。

基于自组织神经网络的数据挖掘技术

²  自组织过程是一种无教师学习过程。通过学习,可以提取一组数据中的的重要特征或者某种内在知识,如分布的特征或按某种特征聚类。

芬兰学者T.Kohonen认为,神经网络中邻近的各单元如同组成大脑的神经元一样,所发挥的作用是不同的,通过相互作用,可以子适应地发展成检查不同性质信号的的特殊探测器。因为处在不同大脑空间的部位的神经元分工是不同的,它们各自对输入不同的模式很敏感。T.Kohonen还提出一种学习方式,使输入信号映射到低维空间,并且保持相同特征的输入信号在空间上对应临近区域,这就是所谓的自组织特征映射(SOFM)

²  模糊神经网络中的数据挖掘技术

尽管神经网络具有较强的学习、分类、联想与记忆等功能,但是在将神经网络用于数据挖掘时最大的难度是无法对输出结果给出给出直观的说明。将模糊处理功能引入神经网络后,不仅可以增加神经网络的输出表达能力,而且使系统变得更加稳定。经常用于数据挖掘的模糊神经网络有模糊BP网络、模糊Kohonen聚类网络、模糊推理网络和模糊ART模型等。

模糊BP网络是基于传统的BP网络发展而来的。在传统的BP网络中,如果样本x属于第k类,除第k个输出节点为1外,其他输出节点的输出值为0.即传统BP网络的输出值非01,一点也不含糊。但是在模糊BP网络中,样本的希望输出值改为样本相对各类的希望隶属读。模糊BP网络具有了反映训练集内输入与输出隶属关系的能力,在数据挖掘时能够给出待识别模型的隶属度。

模糊Kohonen聚类网络不仅在输出表达方面实现了模糊化,而且将样本的隶属度引入权系数修正规则中,使权系数的修正规则也实现了模糊化。

Ø  基于神经网络的数据挖掘技术特点

神经网络可按管理模式或非管理模式来学习。在管理模式中,神经网络需要预测现有示例可能带来的结果,它将预测结果与目标答案相比较且从错误中进行学习。管理模式的神经网络可用于预测、分类和时间序列模型。非管理模式的学习在描述数据时很有效,却不用于预测结果。非管理模式的神经网络创建自己的类描述、合法性验证和操作,它与数据模式无关。神经网络可能需要经历很长的学习时间。由于它们的行为像黑盒,有时无法满足商业分析员的置信度要求。

*  遗传算法型知识挖掘技术:遗传算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学相互结合、相互渗透而形成的新的计算方法。

遗传是一种生物从其亲代继承特性和性状的现象。继承的信息由基因携带,多个基因组成染色体,基因在染色体中的位置为基因座。同一基因座可能有的全部基因为等为基因,等位基因和基因座决定了染色体的特征,也就决定了生物个体的特性。

从染色体的表现形式看,有两种相应的表示模式,分别是基因型和表现型。表现型是指生物个体表现出来的形状

*  粗糙集型知识挖掘技术

现在所使用的大多数数据挖掘工具都是基于集合论开发的,其中应用最多的是粗糙集(RS)。粗糙集是波兰学者Pawlak Z1982年提出的,这是一种研究不确定性问题的数学工具。粗糙集(RS)作为集合论的扩展,主要用于研究不完全和不完整信息描述的数据挖掘技术。它能够在缺少关于数据先验知识的情况下,以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理。同时粗糙集算法简单,易于操作,目前,以其为基础构造的数据挖掘工具也比较多。

粗糙集根据已有的给定问题的知识,对问题论域进行划分。然后对划分后的每个组成部分确定其对某个概念的支持程度:肯定支持、肯定不支持和可能支持三种。在粗糙集中用正域、负域和边界三个近似集合,表示这三种情况。粗糙集中的不精确概念用所有对象一定被包含的集合中的下近似和所有对象可能被包含的上近似来表示。

粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性。对数据库中元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

粗糙集的理论出发点是假定所研究的每个对象涉及一些信息(数据,知识)。所有相似对象的集合称为初等集合,形成知识的基本成分,任何初等集合的并集称为精确集。否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素也不能确定为集合补集元素的元素,而精确集没有边界元素。

l  知识发现技术的应用

*  关联规则的应用

*  神经网络的应用

*  遗传算法的应用

*  粗糙集的应用

l  知识发现工具的应用

*  知识发现工具的系统结构:知识发现系统设计的一个重要问题是:是否应当将数据挖掘(DM)系统与数据库(DB)系统和数据仓库(DW)系统耦合或集成?如果应当,应该怎样正确地进行?为此,需要观察耦合或集成DM系统和DB/DW系统可能的途径。基于不同的结构设计。用不耦合、松散耦合、半紧密耦合和紧密耦合模式可将DM系统和DB/DW系统集合。

ü  无耦合(no coupling):意味DM系统不利用DBDW系统的任何功能。不耦合体系的数据挖掘系统是一种很糟糕的设计。

ü  松散耦合(loose coupling):意味着DM系统使用DB/DW的某些功能,从这些系统管理的数据存储中提取数据,进行数据挖掘,然后将挖掘的结果存放在文件中,或者存放在数据库或数据仓库中的指定位置。

ü  半紧密耦合(semitight coupling):一些基本的数据挖掘原语可以在DB/DW中实现。这些原语可能包括排序,索引,聚集,直方图分析和一些基本的统计度量(如求和,计数,最大,最小,标准差等)的预处理。

ü  紧密耦合(tight coupling)DM系统平滑地集成到DB/DW系统中。

*  知识发现工具运用中的问题:许多知识发现技术源于人工智能和机器学习的研究

ü  数据挖掘技术应用中的共性问题

²  数据质量:由于知识发现是数据驱动的,而且不易管理,因此知识发现很容易遇到数据质量的问题。

²  数据可视化:数据可视化是一种帮助知识挖掘人员了解数据、获取知识的有力工具

²  极大数据库(vLDB)的问题:对极大的数据库往往需要使用其它数据抽取技术,生成一个知识挖掘数据库,便于知识挖掘技术的应用。

²  性能和成本

²  商业分析员的技能

²  处理噪声和不完全的数据:在知识挖掘系统中需要处理数据噪声的数据清理方法和数据分析方法。以及发现和分析异常情况的孤立点挖掘方法来解决这些问题。

²  模式评估——兴趣度问题

ü  数据挖掘技术应用中的个性问题

²  规则归纳应用中的问题

规则归纳的主要用于显示描述数据抽取的规则。它有可能使用户淹没在数量繁多的规则中,把所有规则看一遍是困难的,进行系统规则归纳,找到所有的规则,工作量是巨大的。

²  神经网络应用中的问题

神经网络的研究内容相当广泛,反映了多学科交叉技术领域的特点。迄今为止,在人工神经网络研究领域中,有代表性的网络模型已达数十种,而学习算法的类型更难以统计其数量,他的最大优点就是能够精确地对复杂问题进行探测。

神经网络也有一些缺点:第一,神经网络易于受训练过度的影响。第二,神经网络的训练速度问题。

²  遗传算法应用中的问题:遗传算法能够解决许多其他技术难以解决的问题。它在问题解决过程中不是针对参数本身,而是通过参数集进行编码的基因个体。使遗传算法可对一些复杂的结构对象,例如集合、序列、树、图、表等进行操作。利用对所有个体进行处理的方法,可以探索空间中的多个解,使遗传算法具有较好的全局搜索特性。

在数据挖掘领域,目前主要用于增强其他数据挖掘技术,例如与神经网络技术的结合,可以提高神经网络的可理解性,从遗传算法自身的角度考察,遗传算法实际上一种最难以理解和开发难度最大的算法。

*  知识发现的价值

ü  了解商业活动

ü  发现商业异常

ü  预测模型

*  知识类数据挖掘工具的简介:

知识类数据挖掘工具有IBM公司的IM智能挖掘器,加拿大Simon Fraser大学智能数据库系统研究室创建的DBMine, SGI公司与美国Standford大学所开发的Mineset等。在MS SQL Server2000中的Analysis Services中也提供了决策树聚类两种挖掘技术。

DBMiner的数据挖掘类型:

DBMiner能够支持的数据挖掘功能包括分析、关联、分类、聚类、预测和时间序列分析。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值