数据挖掘十大经典算法个人总结

本文是对数据挖掘十大经典算法的个人总结,包括C4.5决策树、K-Means聚类、SVM、Apriori关联规则、EM算法、PageRank、Adaboost、K最近邻(KNN)、朴素贝叶斯和CART分类回归树。介绍了各算法的基本思想、特点及应用场景。
摘要由CSDN通过智能技术生成


数据挖掘十大经典算法个人总结
这两年对数据挖掘相关知识研究运用的已经很多了,最近看了关于数据挖掘十大经典算法的文章。想对其进行一个总结,强化下自己对这些算法的理解。
1. C4.5

C4.5 是基于ID3算法改进的决策树算法。相对于ID3,其伪代码:

image

它具有的特点:
1) 用信息增益率来选择属性
信息增益会偏向选择取值多的属性,而信息增益率除以H(v)来削弱这种偏向。

信息增益率:IG-ratio

    


2) 在树构造过程中进行剪枝;
C4.5采用悲观剪枝法,它使用训练集生成决策树又用它来进行剪枝,不需要独立的剪枝集。

悲观剪枝法的基本思路是:设训练集生成的决策树是T,用T来分类训练集中的N的元组,设K为到达某个叶子节点的元组个数,其中分类错误地个数为J。由于树T是由训练集生成的,是适合训练集的,因此J/K不能可信地估计错误率。所以用(J+0.5)/K来表示。设S为T的子树,其叶节点个数为L(s),image 为到达此子树的叶节点的元组个数总和,image 为此子树中被错误分类的元组个数之和。在分类新的元组时,则其错误分类个数为image ,其标准错误表示为:image  。当用此树分类训练集时,设E为分类错误个数,当下面的式子成立时,则删掉子树S,用叶节点代替,且S的子树不必再计算。

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值