![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
频繁模式
文章平均质量分 88
DeeFOX
架构师之路
展开
-
使用mahout fpgrowth算法求关联规则
首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;三 我简化了其实验内容,单纯的用数字表示item了。 首先是实验环境jdk >= 1.8hadoop (>=转载 2015-01-16 00:49:17 · 647 阅读 · 0 评论 -
日记2015/1/20
今日效率有点低了,早上仅仅完成了代码的融合部分,到下午为了能在那堆14万session的数据集上跑出一个结果搞了半天还是不行!可以断定用GSP在如此大的数据集上做频繁序列挖掘是几乎不可能完成的,每次都要做数据库扫描这种方法明显不可能!spade算法在计算支持度的时候利用了已有频繁序列的计数,因此在计算支持度的时候只需要计算序列某个子集下的计数,大大减少了全表扫描的及数量!明天实现以下才行~还有~~原创 2015-01-21 01:13:59 · 356 阅读 · 0 评论 -
频繁序列模式挖掘
1.频繁序列模式挖掘序列模式是频繁模式的一种特殊情况,它们的应用范围完全不一样!如:购买物品尿布、啤酒、可乐面包、尿布、啤酒上述购物清单是两个用户的购物清单,根据上面的清单,我们可以发现尿布和啤酒组合起来一起购买的情况较多,因此超市可以根据这样的频繁项集分析,将尿布和啤酒放在较近的地方,或者将尿布和啤酒同时促销等增加销量。原创 2015-01-20 00:33:26 · 5161 阅读 · 0 评论