Spark MLlib模型训练—频繁项集Frequency Itemset

猫猫姐

于 2024-08-05 10:01:26 发布

阅读量202

点赞数 5

分类专栏： Spark实战文章标签： spark-ml 算法 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84052244/article/details/140919322

版权

Spark MLlib模型训练—频繁项集Frequency Itemset

频繁项集（Frequency Patterns），是一种经典的数据挖掘算法，我们可以把它归类到非监督学习的范畴。频繁项集可以挖掘数据集中那些经常“成群结队”出现的数据项，并尝试在它们之间建立关联规则（Association Rules），从而为决策提供支持。

举例来说，基于对上百万条交易记录的统计分析，蔬果超市发现（“葱”，“姜”，“蒜”）这三种食材经常一起出现。换句话说，购买了“葱”、“姜”的人，往往也会再买上几头蒜，或是买了大葱的人，结账前还会再把姜、蒜也捎上

在这个购物篮的例子中，（“葱”，“姜”，“蒜”）就是频繁项（Frequency Itemset），也即经常一起共现的数据项集合。而像（“葱”、“姜”->“蒜”）和（“葱”->“姜”、“蒜”）这样的关联关系，就叫做关联规则。

不难发现，基于频繁项与关联规则，我们能够提供简单的推荐能力。以刚刚的（“葱”，“姜”，“蒜”）为例，对于那些手中提着大葱、准备结账的人，精明的导购员完全可以向他 / 她推荐超市新上的河北白皮蒜或是山东大生姜。

回到电影推荐的场景，我们同样可以基于历史，挖掘出频繁项和关联规则。比方说，电影（“八佰”、“金刚川”、“长津湖”）是频繁项，而

最低0.47元/天解锁文章

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark MLlib模型训练—频繁项集Frequency Itemset

频繁项集它暗示了某些事物之间总是结伴或成对出现。本质上来说，不管是因果关系还是相关关系，都是共现关系。理论上所有机器学习算法都可以暴力搜索，也就不需要承担启发式搜索带来的局部优化损失问题，估计现在很少有人这么做了。FP-growth算法只需要对数据库进行两次扫描，同Aprion相比压缩度更高，不过对内存开销大，而且只能用于挖掘单维的布尔关联规则。理论上一般建议使用Apriori算法进行关联分析，用FP-growth算法来高效发现频繁项集。当然实际工程还是要根据数据的质量和目标需求以及运营成本来调整。
复制链接

扫一扫

专栏目录

猫猫姐 CSDN认证博客专家 CSDN认证企业博客

码龄127天

183: 原创

6万+: 周排名

1万+: 总排名

7万+: 访问

: 等级

3057: 积分

1113: 粉丝

1110: 获赞

9: 评论

647: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据仓库—ETL工具与技术：数据仓库的坚实基石
Byyyi耀: 感谢分享，学到了很多新东西，期待更多的好文章！想和您互关一下。
数据仓库—ETL工具与技术：数据仓库的坚实基石
Byyyi耀: 感谢分享，学到了很多新东西，期待更多的好文章！想和您互关一下。
数据仓库—大数据建模
Byyyi耀: 大佬互关吗？非常不错的文章，解决了我大问题！赞一个！
数仓建模—表设计规范
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618591269。
数仓建模—大数据建模
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。