数据挖掘经典算法概述以及详解链接

po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。

数据挖掘方面的算法,主要可以用作分类,聚类,关联规则,信息检索,决策树,回归分析等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。

这里先介绍两个概念:监督学习非监督学习。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是监督学习。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是非监督学习,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。

1.K-Means算法

K-Means算法是一种常用的非监督学习聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个类心,聚成K个聚类
通常我们会先确定一个相异度度量方法,常用的相异度有,欧氏距离,曼哈顿距离,马氏距离,余弦距离等。根据两个数据之间的“距离”来确定两个数据之间的相异度。
K-Means算法步骤:

1.所有数据中取K个数据(可随机,也可选定)作为K个聚类的初始类心。
2. 遍历下一个数据,分别计算它到K个类心的“距离”,并将其归类到“距离”最小的那个类心所在聚类中。
3. 重新调整该聚类的类心,一般来说,类心的每维为该聚类中所有数据该维的算术平均。
4. 重复步骤2、3直到所有数据均被聚类
5. 输出结果

K-Means算法中K值的大小甚为关键,当K值较大时,时间消耗会很大,但是聚类结果也较好一点。当K值较小时,聚类结果会比较单调。当然K值大小也依赖于数据量的大小,另外,初始的K个类心的选择对结果也有较大的影响,最好这K个类心之间差异较大。
K-Means学习可以参考下面的链接:

算法杂货铺——k均值聚类(K-means)

2.Apriori算法

Apriori算法可以说是最为经典的关联规则算法,之后的关联规则算法多数基于该算法。它的作用是依据数据,挖掘各个事务之间的可能关联,我之前感兴趣也实现过一次,所以较为熟悉。
举一个大家较熟悉的栗子:曾经有一个有趣的发现,跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在”尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。这是沃尔玛的真是案例,这一小小发现曾经给沃尔玛带来较为可观的利润,这便利用了关联规则挖掘。这种关联从主观意识上很难想到,但是通过数据就可以。
Apriori算法本身不难,而且很有意思。但是理解这个算法稍微费劲,由于自己以前写过这个算法的详解以及实现代码,所以这里贴上自己以前的链接吧

web挖掘之Apriori算法 JAVA实现

3.Naive Bayes(朴素贝叶斯)

朴素贝叶斯是很经典的统计分类方法,属于监督学习,它的理论依据是贝叶斯原理
这里写图片描述,也是最为简单的贝叶斯分类器。
朴素贝叶斯的作用也比较容易理解,举个例子,你在大街上看见一个男生穿着格子衫,那么你觉得他很有可能是理工男(无意黑),这是因为穿格子衫的大部分都是理工男,而这一点,是建立在我们的已知的经验得出的。即,在已知他是穿的格子衫的情况下,他是理工男的可能性最大,这就是条件概率用来分类的应用。
Naive Bayes算法的定义如下

  1. 假设有一个可由n个独立属性表示的待分类项这里写图片描述其中这里写图片描述为n个独立属性.
  2. 已知有m个类别这里写图片描述
  3. 求条件概率这里写图片描述
  4. 取上面条件概率的最大值,其对应的类别即为待分类项所在的类别

可见,条件概率的计算是算法中的关键与难点,这个时候就需要用到贝叶斯公式了。假设我们有一定量的训练样本,其中是已经分类过的待分类项。下面是条件概率的计算步骤

  1. 统计计算每个类别的频率,即这里写图片描述
  2. 统计计算每个特征属性在每个类别中的条件概率,即这里写图片描述
  3. 以及贝叶斯公式可得 这里写图片描述
    又因为属性这里写图片描述相互独立,可得
    这里写图片描述
    另外根据全概率公式可知这里写图片描述
    根据以上公式,即可求得待分类项对于每个类别的条件概率。

实验上,我们通常用一部分数据作为训练样本,用一部分数据作为测试样本,以避免过度拟合。理论上说,朴素贝叶斯的分类效果应该优于决策树分类的,但是实际生活中朴素贝叶斯的效果却不太理想,因为很难保证各特征属性相互独立。
下面贴上链接

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

4.KNN算法(K近邻算法)

KNN算法与K-Means算法有相似之处,但是KNN算法严格来说是一种归类算法,应属于半监督学习(本人臆测。不严谨)。KNN算法算是最简单的归类算法了。
我们通常说,物以类聚,人以群分,你属于的群体很大程度上描述了你是怎么样的人。KNN算法的核心思想也是如此,我们取K个与待分类项最接近的项,统计这些项分别属于哪些类别,最后哪个类别中所占的项最多,即认为是该待分类项所在的类别。
与K-means算法相同,这里面同样涉及到了相异度度量的问题,我们需要设定一个度量想法来确定两个项之间的相异度,如,欧氏距离,余弦距离,曼哈顿距离等。

wikipedia官方解释上有这样一张图片:
这里写图片描述

问其中带问号的点属于什么类别,

  • 当K==3,那么我们统计得到,离带问号的点最接近的3个点中2个红色三角,1个蓝色正方,那么根据KNN算法,该点与红色三角属于同一类别。
  • 当K==5,那么我们统计得到,离带问号的点最接近的3个点中2个红色三角,3个蓝色正方,那么根据KNN算法,该点与蓝色正方属于同一类别。

由此可见,K的取值对于待分类项是一个关键问题

  • 如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;
  • 如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
  • K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的累,模型过于简单,忽略了训练实例中大量有用信息。

贴上相关链接

K Nearest Neighbor 算法

5.SVM算法(支持向量机算法)

支持向量机算法应用领域十分广泛,图像分类,数据分类,统计回归等等,是十分经典的监督式学习算法
SVM算法的理解就不像之前的算法那么通俗易懂,详细讲解也需要较大篇幅的图解和公式,这里就简单介绍一下。涉及到的图片部分来自后面给的链接,不知道这种行为是否侵权,如有侵权,我会撤回。
最简单的SVM分类就是线性分类,如下图

这里写图片描述

这个图大家应该都不陌生,就是用一个线性方程将所有数据分为两类,当然这也是最简单的情况了,况且就算这样简单的情况下,线性方程也仍然不唯一,如下图

这里写图片描述

哪种分法最好呢??一般来说,能够与两个类别的界限越明晰,分类越好,怎么理解,如下图

这里写图片描述

蓝点和红点分别是两个类别中距离分类线最近的点,它们与分类线的距离越大,那么分类效果就越好,这几个点就是支持向量。这个原则也也成为Maximum Marginal(最大间距),是SVM的一个理论基础之一。
当然你一定也想到了,当所有的点并不能用一条线分类的时候怎么办,就如下面的图

这里写图片描述

左边的图明显不能用一条直线划分,这个时候,我们有两种选择

  1. 将数据从原来的线性空间投射到高维的空间里,并在高维的空间里进行超平面划分,如果还是不行,就向更高维空间投射(记得看过一本书说总能在某一个高维空间进行划分,不知道是否严谨),关于投射变换,就跟核函数有关系,核函数有很多种,这个详看链接
  2. 依旧使用线性划分,但是允许误差,这里面又会引入惩罚函数的概念,详看链接

关于SVM更多的理论基础和数学模型,还是需要大家更多的时间学习,下面贴上参考链接

机器学习中的算法(2)-支持向量机(SVM)基础
支持向量机SVM(一)

6.Decision Tree(决策树算法)

决策树在决策分析与风险评估等领域有十分广泛的应用,属于监督学习,它在一定程度上可以作为趋势探测。而且不同于贝叶斯分类中各特性必须独立的理论要求的严格,决策树更加贴近实际生活,所以也有较多的实际应用。
如下图是预测一个人是否拥有电脑的简单决策树模型:

这里写图片描述

这种图相信大家都一眼能够看懂,在建立这个树的时候,我们假设每个数据项都有属性“年龄”,“是否学生”,“信用等级”等特征属性,那么我们在建立树的时候,就需要考虑每到一个结点应该使用什么属性合适。这里就要引入三个概念,一个是“”,一个是“期望熵”,另一个是“信息增益”:

  • 熵:熵是接收的每条消息中包含的信息的平均量,信息论中,熵的计算方法是:这里写图片描述,其中这里写图片描述是指第i个类别在整个训练样本中的比例,具体的例子后面附上的链接会有
  • 期望熵:我们以属性A对训练样本进行划分,那么期望熵即为这里写图片描述,按照属性A,训练样本可以划分为v个类别。
  • 信息增益:两个概率分布相异度的一种度量,非对称的(来之维基百科),其定义这里写图片描述,对于分类来讲,信息增益越大分类效果越好,决策树也就越简洁。就比如两个分类,我们以天气来决策是否出去:1.不下雨就出去,下雨就不出去。2.不下雨可能出去可能不出去,不下雨就不出去。那么分类1就会比分类2的效果好一点,对于天气这个属性来说,分类1的信息增益也会比分类2的信息增益大。

由上面我们可以知道,在每次选择属性作为决策结点时,我们通常选择当前信息增益最大的属性。这也是数据挖掘领域经典的ID3算法。
ID3算法的一个缺陷就是偏向于选择取值多的属性。为了解决这个问题,又引入了C4.5算法,其基于ID3算法做了部分改进,其中最主要的一条就是将信息增益换做了增益率来选择属性作为决策结点,这个在后面附上的链接里面也会有所说明。
另外,决策树模型在应用的时候,也常和启发式方法结合,可以达到优化的效果。

算法杂货铺——分类算法之决策树(Decision tree)

7.EM算法(最大期望算法)

这个算法我曾经研究学习过,就详细讲解一下

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的潜变量(Latent Variable),在机器学习领域有很广泛的应用。提到最大期望算法,就不得不提一下最大似然估计(Maximum Likelihood Estimate)。
举一个栗子:假设有两个相同的箱子,甲箱中有99个白球1个黑球,乙箱中有99个黑球1个白球,那么我们随机从一个箱子中随机抽一个球,现在已知这个球是白色的,问这个球是从哪个箱子中取出??
对于这样的问题,人们的第一印象就是:“这个球最像是从甲箱取出”,这符合人们的经验事实。这里面的“最像”就是“最大似然”的意思,这种想法也被称为“最大似然原理”。
那么什么是参数最大似然估计呢?官方的定义较为晦涩,我就以自己的理解描述一遍:

  • 假设总体的概率函数为这里写图片描述,其中这里写图片描述一个未知参数或者几个未知参数组成的参数向量,为参数空间,这里写图片描述为该总体的测试得到的样本。
  • 最大似然函数:这里写图片描述,这也是样本的这里写图片描述联合概率函数(注意:里面的这里写图片描述不是变量,这是已知的样本,这里面写上只是因为它们与函数相关。函数中的变量应当是未知参数这里写图片描述
  • 若存在这里写图片描述满足使得其最大似然函数这里写图片描述值最大,那么这里写图片描述即是对未知参数这里写图片描述最大似然估计(MLE)。

通俗一点说就是,最大似然估计解决的就是这样一个问题:一个随机变量的的概率函数中存在未知参数,但是我们通过实验能够获得该随机变量的实验样本,现在就是根据实验样本估计这些未知参数的值
我们也知道,根据实验样本我们并不能肯定未知参数的值,但是我们可以估计,估计的标准就是:估计得到的未知参数值可以使得实验样本发生的概率最大。所以原问题就转换成求最大似然函数值最大时的未知参数的值,也就是使得试验样本发生的概率最大。
关于已知函数求参数极值问题,这就是一般数学领域的问题了,常用的方法就是求导数,取极值。最大似然估计可能不存在,也可能不唯一。另外在求函数极值是参数值过程中也有很多技巧,因为我们并不需要求出最大值具体是多少,只需要保证值最大即可,所以对函数取对数等方法在求最大似然估计中特别常用。

MLE是参数估计非常有效的参数估计算法,但是当有多余参数或者数据缺失时,就比如可观察的参数不足,MLE的求取会变得十分繁杂困难,这时就引入了EM算法(最大期望算法)。EM算法就更为晦涩了,我在这里尽量讲清楚。

  • 假设我们通过试验样本观测到的相关参数是y,y可能是一个参数或者是参数向量,未知参数仍是 θ ,它是一个未知参数或者一个未知参数向量,我们一样可以求得最大似然函数这里写图片描述,这个时候我们可能会发现这里写图片描述很难进行极值约束,由于可观察的参数有限
  • 这时候我们尝试引入变量z,z可能是一个参数也可能是一个参数向量,它协助参数y使得最大似然函数得以约化。
    有的同学可能会问,既然没有观察参数z,那我们设计实验观测参数z不就行了么??这是因为z是不可观测的,是我们人为引入假设的,我们也把它叫做潜变量(latent variable),这也是潜变量有意思的地方。另外,我们也需要推导出潜变量的概率函数(可以含有未知参数),后面能用到。
    这时候我们观察到的数据y被称为不完全数据,因为它不能单独产生意义。数据 (y,z
  • 9
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据挖掘算法 算法目录 18大DM算法 包名 目录名 算法名 AssociationAnalysis DataMining_Apriori Apriori-关联规则挖掘算法 AssociationAnalysis DataMining_FPTree FPTree-频繁模式树算法 BaggingAndBoosting DataMining_AdaBoost AdaBoost-装袋提升算法 Classification DataMining_CART CART-分类回归树算法 Classification DataMining_ID3 ID3-决策树分类算法 Classification DataMining_KNN KNN-k最近邻算法工具类 Classification DataMining_NaiveBayes NaiveBayes-朴素贝叶斯算法 Clustering DataMining_BIRCH BIRCH-层次聚类算法 Clustering DataMining_KMeans KMeans-K均值算法 GraphMining DataMining_GSpan GSpan-频繁子图挖掘算法 IntegratedMining DataMining_CBA CBA-基于关联规则的分类算法 LinkMining DataMining_HITS HITS-链接分析算法 LinkMining DataMining_PageRank PageRank-网页重要性/排名算法 RoughSets DataMining_RoughSets RoughSets-粗糙集属性约简算法 SequentialPatterns DataMining_GSP GSP-序列模式分析算法 SequentialPatterns DataMining_PrefixSpan PrefixSpan-序列模式分析算法 StatisticalLearning DataMining_EM EM-期望最大化算法 StatisticalLearning DataMining_SVM SVM-支持向量机算法 其他经典DM算法 包名 目录名 算法名 Others DataMining_ACO ACO-蚁群算法 Others DataMining_BayesNetwork BayesNetwork-贝叶斯网络算法 Others DataMining_CABDDCC CABDDCC-基于连通图的分裂聚类算法 Others DataMining_Chameleon Chameleon-两阶段合并聚类算法 Others DataMining_DBSCAN DBSCAN-基于密度的聚类算法 Others DataMining_GA GA-遗传算法 Others DataMining_GA_Maze GA_Maze-遗传算法在走迷宫游戏中的应用算法 Others DataMining_KDTree KDTree-k维空间关键数据检索算法工具类 Others DataMining_MSApriori MSApriori-基于多支持度的Apriori算法 Others DataMining_RandomForest RandomForest-随机森林算法 Others DataMining_TAN TAN-树型朴素贝叶斯算法 Others DataMining_Viterbi Viterbi-维特比算法 18大经典DM算法 18大数据挖掘经典算法以及代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面,后面都是相应算法的博文链接,希望能够帮助大家学。 目前追加了其他的一些经典的DM算法,在others的包中涉及聚类,分类,图算法,搜索算等等,没有具体分类。 C4.5 C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。详细介绍链接 CART CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接 KNN K最近邻算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接 Naive Bayes 朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接 SVM 支持向量机算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接 EM 期望最大化算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。详细介绍链接 Apriori Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接 FP-Tree 频繁模式树算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。详细介绍链接 PageRank 网页重要性/排名算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到LinkSpan攻击。详细介绍链接 HITS HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。详细介绍链接 K-Means K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。详细介绍链接 BIRCH BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。详细介绍链接 AdaBoost AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。详细介绍链接 GSP GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。详细介绍链接 PreFixSpan PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。详细介绍链接 CBA 基于关联规则分类算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。详细介绍链接 RoughSets 粗糙集算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。详细介绍链接 GSpan gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。详细介绍链接 Others目录下的算法: GA 遗传算法。遗传算法运用了生物进化理论的知识来寻找问题最优解的算法算法的遗传进化过程分选择,交叉和变异操作,其中选择操是非常关键的步骤,把更适应的基于组遗传给下一代。详细介绍链接 DbScan 基于空间密度聚类算法。dbScan作为一种特殊聚类算法,弥补了其他算法的一些不足,基于空间密,实现聚类效果,可以发现任意形状的聚簇。详细介绍链接 GA_Maze 遗传算法在走迷宫游戏中的应用。将走迷宫中的搜索出口路径的问题转化为遗传算法中的问题通过构造针对此特定问题的适值函数,基因移动方向的定位,巧的进行问题的求解。详细介绍链接 CABDDCC 基于连通图的分裂聚类算法。也是属于层次聚类算法主要分为2个阶段,第一阶段构造连通图。第二个阶段是分裂连通图,最终形成聚类结果。详细介绍链接 Chameleon 两阶段聚类算法。与CABDDCC算法相反,最后是通过对小簇集合的合并,形成最终的结果,在第一阶段主要是通过K近邻的思想形成小规模的连通图,第二阶段通过RI(相对互连性)和RC(相对近似性)来选一个最佳的簇进行合并。详细介绍链接 RandomForest 随机森林算法算法思想是决策树+boosting.决策树采用的是CART分类回归数,通过组合各个决策树的弱分类器,构成一个最终的强分类器,在构造决策树的时候采取随机数量的样本数和随机的部分属性进行子决策树的构建,避免了过分拟合的现象发生。详细介绍链接 KDTree K-Dimension Tree。多维空间划分树,数据在多维空间进行划分与查找。主要用于关键信息的搜索,类似于在空间中的二分搜索,大大提高了搜索效率,在寻找目标元素时,使用了DFS深度优先的方式和回溯进行最近点的寻找。详细介绍链接 MS-Apriori 基于多支持度的Apriori算法。是Apriori算法的升级算法,弥补了原先Apriori算法的不足,还增加了支持度差别限制以及支持度计数统计方面的优化,无须再次重新扫描整个数据集,产生关联规则的时候可以根据子集的关系避免一些置信度的计算。详细介绍链接 ACO 蚁群算法。蚁群算法又称为蚂蚁算法。同GA遗传算法类似,也是运用了大自然规律的算法,用于在图中寻找最优路径的概率型算法。灵感来源于蚂蚁在寻找食物时会散播信息素的发现路径行为。详细介绍链接 BayesNetwork 贝叶斯网络算法。弥补了朴素贝叶斯算法中必须要事件独立性的缺点,利用了贝叶斯网络的DAG有向无环图,允许各个事件保留一定的依赖关系,网络结构中的每个节点代表一种属性,边代表相应的条件概率值,通过计算从而能得到精准的分类效果。详细介绍链接 TAN 树型朴素贝叶斯算法。此算法又被称为加强版朴素贝叶斯算法。在满足原有朴素贝叶斯条件的基础上,他允许部条件属性直接的关联性。形成树型的结构。详细介绍链接 Viterbi 维特比算法。给定一个隐马尔科夫模型以及一个观察序列,求出潜在的状态序列信息,每个潜在状态信息又会受到前一个状态信息的影响。 算法使用方法 在每个算法中给出了3大类型,主算法程序,调用程序,输入数据,调用方法如下: 将需要数据的测试数据转化成与给定的输入格式相同 然后以Client类的测试程序调用方式进行使用。 也可以自行修改算法程序,来适用于自己的使用场景

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值