购物篮算法想必大家并不陌生,随便翻开任何一本数据挖掘的书,开篇都会讲牛奶和啤酒的故事,而购物篮算法中有一个很重要的算法是Aprioi算法,算法详解可见如下链接。
https://blog.csdn.net/baimafujinji/article/details/53456931
在进行Aprioi算法的频繁项集选择时,比较常见的一个操作是从一堆物品集合中挑选出两两组合或者三三组合的这些小集合,其实就类似于从一堆数据中随机选择几个数,并对其进行枚举。
举个例子:葫芦娃一共有"红黄蓝绿橙靛紫"七种颜色,请帮我随机选择两种颜色,请问一共有多少种选择方法,并将其枚举出来,学过一点概率论的同学应该都清楚,这个数字应该等于7*6/(2!)=21种;那如果要随机取三种呢,应该是7*6*5/(3!)=35种,频繁项集的挑选中,这是非常常见的一步,那么问题来了,怎么来进行这个操作呢。
还是需要拿这个图来说明一下,两个元素的集合来自于一个元素的集合,三个元素的集合又来自于两个元素的集合,同理,四个元素的集合又来自于三个元素的集合,最终可知七个元素的集合来自于六个元素的集合并最终可以凑在一起变成葫