数据挖掘十大经典算法

最新推荐文章于 2020-05-09 11:49:35 发布

学习是持久的

最新推荐文章于 2020-05-09 11:49:35 发布

阅读量1k

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/learning_DA/article/details/51162339

版权

数据挖掘专栏收录该内容

6 篇文章

订阅专栏

1、C4.5；2、k-Means；3、SVM；4、Apriori；5、EM；

6、PageRank；7、AdaBoost；8、kNN；9、Naive Bayes；10、CART

1、C4.5 计算增益率

step1：计算数据集D的熵（单位为比特）Info(D)

step2：计算每个属性的熵Info(x)(D)

step3：增益率=（Info(D)-Info(x)(D)）/

2、k-均值算法：

首先，将数据集随机生成k个簇，计算每个簇的均值（中心点）；其次，将每一个样本分配到离它最近的中心点处；3、计算新的每个簇的中心点，中心点为簇的均值，重复步骤2，3；4、若迭代满足终止条件，一般终止条件为：（1）新、旧中心的变化小于阀值（2）聚类内方差和总平方误差小于某个阀值

3、支持向量机

4、Apriori 关联规则

例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%]
支持度3%意味3%顾客同时购买牛奶和面包。置信度40%意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴趣度度量，它们分别反映发现规则的有用性和确定性。关联规则是有趣的，如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。
我们先来认识几个相关的定义：
定义1：支持度（support）
支持度s是事务数据库D中包含A U B的事务百分比，它是概率P（A U B），即support（A B）=P（A U B），它描述了A和B这两个物品集的并集在所有的事务中出现的概率。
定义2：置信度（confidence）
可信度为事务数据库D中包含A的事务中同时也包含B的百分比，它是概率P（B|A），即confidence（A B）=P（B|A）。
定义3：频繁项目集
支持度不小于用户给定的最小支持度阈值（minsup）的项集称为频繁项目集（简称频集），或者大项目集。所有
的频繁1-项集记为L1。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。