关联分析:即从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习;
存在的问题;
寻找物品的不同组合是一项十分耗时的任务,所需要的计算代价很高,暴力搜索不能解决问题。
关联分析是用于发现大数据集中元素有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。
1.给出频繁项集,给出经常出现在一起的元素项;
2.给出关联规则,每条关联规则意味着元素项之间的“如果....那么...”关系;
FP-growth(Frequent Pattern Growth)即频繁模式增长,
比Apriori算法效率更高,在整个算法的执行过程中,只需要遍历数据集2次,就可以完成频繁模式的发现。
标称型数据:一般在有限的数据中取,而且值存在“是”和“否”两种不同的结果(一般用于分类)
数值型:可以在无限的数据中取,而且数值比较具体化(一般用于回归分析)
FP-growth算法使用的数据类型:标称型数据
Apriori算法适用的数据类型:
https://blog.csdn.net/bigbigship/article/details/51114825