之前一直不是很理解这个方法,最近发现可以按照下面的方式来解释,比较容易理解。
参考链接:博客园的一个文章
1-数据
首先选出出现频率大于0.2的,然后对原始数据进行剔除,只保留出现频率大于0.2的项(即A C E G B D F):
2-构造树
构造树的过程比较复杂,下面以插入第七和第八两条数据为例介绍。
第七条数据插入后:
第八条数据插入后(注意A C数值的变化,以及新增节点D和上一张图片的D节点的数值变化):
全部插入后:
(E:6,表示E出现6次,有6个后继结点,两个是B,一个是G;
F:2,表示F出现2次,但没有后继结点)
3-挖掘频繁项集
以D为例,让D的父节点依次累加,G=1,E=G=1,C=E+G=2 ,A=C=2 , 频繁项集最少出现两次,所以只保留AC,按照下图组合三项集…