1、C4.5;2、k-Means;3、SVM;4、Apriori;5、EM;
6、PageRank;7、AdaBoost;8、kNN;9、Naive Bayes;10、CART
1、C4.5 计算增益率
step1:计算数据集D的熵(单位为比特)Info(D)
step2:计算每个属性的熵Info(x)(D)
step3:增益率=(Info(D)-Info(x)(D))/
2、k-均值算法:
首先,将数据集随机生成k个簇,计算每个簇的均值(中心点);其次,将每一个样本分配到离它最近的中心点处;3、计算新的每个簇的中心点,中心点为簇的均值,重复步骤2,3;4、若迭代满足终止条件,一般终止条件为:(1)新、旧中心的变化小于阀值(2)聚类内方差和总平方误差小于某个阀值
3、支持向量机
4、Apriori 关联规则
例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%]
支持度3%意味3%顾客同时购买牛奶和面包。置信度40%意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。
我们先来认识几个相关的定义:
定义1: 支持度(support)
支持度s是事务数据库D中包含A U B的事务百分比,它是概率P(A U B),即support(A B)=P(A U B),它描述了A和B这两个物品集的并集在所有的事务中出现的概率。
定义2: 置信度(confidence)
可信度为事务数据库D中包含A的事务中同时也包含B的百分比,它是概率P(B|A),即confidence(A B)=P(B|A)。
定义3: 频繁项目集
支持度不小于用户给定的最小支持度阈值(minsup)的项集称为频繁项目集(简称频集),或者大项目集。所有
的频繁1-项集记为L1。