数据挖掘十大经典算法

1、C4.5;2、k-Means;3、SVM;4、Apriori;5、EM;

6、PageRank;7、AdaBoost;8、kNN;9、Naive Bayes;10、CART

1、C4.5  计算增益率

step1:计算数据集D的熵(单位为比特)Info(D)

step2:计算每个属性的熵Info(x)(D)

step3:增益率=(Info(D)-Info(x)(D))/

2、k-均值算法:

首先,将数据集随机生成k个簇,计算每个簇的均值(中心点);其次,将每一个样本分配到离它最近的中心点处;3、计算新的每个簇的中心点,中心点为簇的均值,重复步骤2,3;4、若迭代满足终止条件,一般终止条件为:(1)新、旧中心的变化小于阀值(2)聚类内方差和总平方误差小于某个阀值

3、支持向量机

4、Apriori 关联规则

例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%]
支持度3%意味3%顾客同时购买牛奶和面包。置信度40%意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。
我们先来认识几个相关的定义:
定义1: 支持度(support)
支持度s是事务数据库D中包含A U B的事务百分比,它是概率P(A U B),即support(A B)=P(A U B),它描述了A和B这两个物品集的并集在所有的事务中出现的概率。
定义2: 置信度(confidence)
可信度为事务数据库D中包含A的事务中同时也包含B的百分比,它是概率P(B|A),即confidence(A B)=P(B|A)。
定义3: 频繁项目集
支持度不小于用户给定的最小支持度阈值(minsup)的项集称为频繁项目集(简称频集),或者大项目集。所有
的频繁1-项集记为L1。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值