论文背景介绍
- 在基于Fp-tree的关联数据挖掘算法出现之前,人们对于增量数据挖掘已经做出了探索,但这些算法均是基于Apriori算法,所以很难应用于基于Fp-tree的增量数据挖掘。
- 本文引入了一个高效的增量数据挖掘算法,Cantree,通过实验对比已有的基于Fp-tree的增量数据挖掘算法FELINE和AFPIM,评价出各个算法的优劣以及它们的适用范围。
Fp-tree的改进算法
- FELINE:该算法在存储上对Fp-tree进行了压缩,它的构造过程较为费时,适用于interactive mining,即“build once,mine many”.对于min_support_count经常变换的情况较为适合。
- AFPIM:该算法适用于增量数据挖掘,因为数据库修改后,每个itemsets的support_count会改变,通过计算改变后数据库中1-itemset的support_count,并做一次重新排序。对排序后的结果通过冒泡排序的方法对原来的Fp-tree做一次更新维护。他的缺点是对于新的满足min_support_count的itemset没有更新进来,所以当加入足够多的transaction后,需要重新构建新的Fp-tre