1.Apriori关联规则挖掘算法。挖掘频繁项。
2.FP-Tree 频繁模式树算法。树形结构。频繁模式树。迭代频繁模式树。
3.ID3、C4.5分类算法。信息熵。随机变量不确定度的度量。以对数2或e为底,X随机事件,i随机变量,pi随机变量发生的概率。信息熵可表征随机事件发生所需的最小信息量。反而言之就是随机事件X的不确定度。另外一个是Gini系数,本身是表征不平均分配占总收入的比例。0.4临界值。第三个分类误差。
4.KNN K最近邻算法。
5.Navie Bayes 朴素贝叶斯算法。