关联规则挖掘是数据挖掘中十分基础的一部分东西,而aprior算法一般作为关联规则挖掘算法学习的敲门砖。具体的算法细节网上有许多的文章博客可供参考,这里推荐一篇:http://www.open-open.com/lib/view/open1440840966419.html。本人也是通过这篇文章的代码进行了第一步的学习。现在谈一下自己学习过程中领会的的一些东西,由于水平有限,都是很基础的东西,理解不当之处希望各位指正:
0、核心就在于下一备选集合的生成。实现时用到四重循环,这也就是aprior的症结所在了。
1、把数据处理成合适的结构。
2、循环挖掘更多项的频繁集时注意只要高级频繁集有一项,就要继续挖掘。
3、注意算法步骤中的每一步,每一步都是必要的。不要自己轻举妄动的。一定要构造绝对支持度映射表!
4、K项频繁集元组的子集都必须全部在下级的频繁集元组中,注意代码中检测这一规律时时注意防止全集和空集的问题。
5、计算每个元组的绝对支持度的时候可以在代码的循环中运用到一个技巧(当然,在其他地方也可以用到):检测一个元组是否在数据样本中时,只要有一项不在就可以马上结束循环。
暂时就这些,想到再说。