盘点七大类当前世界流行的数据挖掘技术

最新推荐文章于 2021-09-07 08:22:47 发布

Paper易论

最新推荐文章于 2021-09-07 08:22:47 发布

阅读量1.1k

点赞数

分类专栏：算法学习

算法学习专栏收录该内容

129 篇文章

订阅专栏

转载自：http://www.douban.com/note/127240577/

1.信息论方法（决策树方法）：信息论方法是利用信息论的原理建立决策树。在知识工程领域，决策树是一种简单的知识表示方法，它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的，因而比较易于理解。该类方法的实用效果好，影响较大。由于该方法最后获得的知识表示形式是决策树，故一般文献中称它为决策树方法。这种方法一般限于分类任务。在系统中采用这种方法的有美国的IDIS，法国的SIPINA，英国的Clementine和澳大利亚的C5.0。信息论方法中较有特色的方法有：
·IBLE方法，利用信息论中信道容量，寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点，根据该结点中指定字段取值的权值之和与两个阈值比较，建立左、中、右三个分枝，在各分枝子集中重复建树结点和分枝的过程，这就建立了决策规则树。
·ID3等方法，利用信息论中互信息（信息增益）寻找数据库中具有最大信息量的字段，建立决策树的一个结点，根据字段的不同取值建立树的分枝，再由每个分枝的数据子集重复建树的下层结点和分枝的过程，这样就建立了决策树。这种方法对数据库越大效果越好。ID3方法在国际上影响很大，后来陆续开发了ID4、ID5、C4.5等。

2.聚类方法：直接比较样本中各样本之间的距离，将距离较近的归为一类，而将距离较远的分在不同类中。它把一个给定的数据对象集合分成不同的簇，是一种无监督分类法。其中较有特色的方法有：
·k均值算法：给定类的个数k，将n个对象分到k个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。其改进型算法是k-medoids方法。
·Clara算法：用实际数据的抽样来代替整个数据，然后再在这些抽样的数据上利用k-medoids算法得到最佳的medoids。
·BIRCH算法：用于大型数据库的高效聚类方法，识别稀疏、密集数据，发现数据的全局分布模式。
·Chameleon（变色龙）算法：一个利用动态模型的层次聚类算法。变色龙算法将互连性和近似性都大的簇合并，可以发现高质量的任意形状的簇。
·CLIQUE算法：这是一种基于密度的算法，聚类（cluster）就是一个区域，满足该区域中的点的密度大于与之相邻的区域。把数据空间分割成网格单元（unit），将落到某个单元中的点的个数当成这个单元的密度（density）。可以指定一个数值，当某个单元中的点的个数大于该数值时，就说这个单元格是稠密（dense）的。聚类也就定义为连通的所有的稠密单元格的集合。
此外还有一些其他的聚类算法，如：ROCK算法、CURE算法、层次聚集等数十种。

3.统计分析方法：利用统计学原理对数据库中的数据进行分析，属于这类商品有美国的SAS，SPSS和Star graphs等软件。具体功能包括：
·常用统计：求大量数据中的最大值、最小值、总和、平均值等。
·相关分析：求相关系数来度量变量间的相关程度。
·回归分析：求回归方程（线性或非线性）来表示变量间的数量关系。
·差异分析：从样本统计量的值得出差异，来确定总体参数之间是否存在差异（假设检验）。
·判别分析：建立一个或多个判别函数，并确定一个判别标准。对未知对象利用判别函数将它划归某一个类别。
·Bayes网络：利用联合概率和Bayes公式所描述的各网络变量（节点）间的因果关系来进行数据分析。

4.仿生物技术：最典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系，它们在数据挖掘中也发挥了巨大的作用，并被归并为仿生物技术类。
神经网络方法：模拟了人脑神经元结构，以MP模型和Hebb学习规则为基础，建立了三大类多种神经网络模型。
·前馈式网络：以感知机、BP反向传播模型、函数型网络为代表，此类网络可用于预测、模式识别等方面。
·反馈式网络：以Hopfield的离散模型和连续模型为代表，分别用于联想记忆和优化计算。
·自组织网络：以ART模型、Kohonen模型为代表，主要用于聚类。
神经网络的知识体现在网络连结的权值上，是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上（包括反复迭代或者是累加计算）。当需要复杂或不精确数据中导出概念和确定走向比较困难时，利用神经网络（NN）技术特别有效。经过训练后的NN可以想象成具有某种专门知识的“专家”，因此可以像人一样从经验中学习，它已广泛地应用于各种DM工具和软件中，有些是以NN为主导技术，例如俄罗斯的PolyAnalyst，美国的BrainMaker，Neurosell和OWL等，NN技术也已广泛地作为一种方法嵌入各种DM成套软件中。
遗传算法：模拟生物进化过程的算法。它由三个基本算子组成：
·繁殖（选择）：从一个旧种群（父代）选择出生命力强的个体产生新种群（后代）的过程。
·交叉（重组）：选择两个不同个体（染色体）的部分（基因）进行交换，形成新个体。
·变异（突变）：对某些个体的某些基因进行变异（1变0,0变1）。
这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值，经过若干代的遗传，将得到满足要求的后代（问题的解）。遗传算法已在优化计算和分类机器学习方面发挥了显著的效果。这种方法的商用产品有美国的GeneHunter、俄罗斯的PolyAnalyst。

5.可视化技术：可视化数据分析技术拓宽了传统的图表功能，使用户对数据的剖析更清楚。例如把数据库中多维的数据变成多种图形，这对于揭示数据中的状况、内在本质以及规律性起到很强的作用。
可视化数据挖掘的目的是使用户能够交互地浏览数据，挖掘过程等，当所要识别的不规则事物是一系列图形而不是数字表格时，人的识别速度是最快的。可分为：
·源数据可视化：源数据可视化能够表现出源数据是如何分布的，能用多种可视化方式进行描述，比如三维立方体或曲线等。
·规则可视化：用规则多边形表现规则。
·数据挖掘结果可视化：将数据挖掘后得到的知识和结果用可视化形式表示出来，比如柱状图等。
·数据挖掘过程可视化：用可视化形式描述各种挖掘过程，从中用户可以看出数据从哪个数据仓库或数据库中抽取出来，怎样抽取以及怎样预处理，怎样挖掘等。

6.模糊数学方法：利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。由于模糊性是客观的存在，而且系统的复杂性愈高，精确化能力便愈低，这就意味着模糊性愈强。这就是Zadeh总结出的互克性原理。

7.其他方法：还有许多其他的方法如逻辑回归、关联规则、最近邻方法、文本挖掘、WEB挖掘、序列分析、SVM等，也常被一些特定领域广泛采用。