频繁模式挖掘 (Frequent pattern mining)：01 概念篇 (附例题)

最新推荐文章于 2024-04-07 10:40:38 发布

lohaive1015

最新推荐文章于 2024-04-07 10:40:38 发布

阅读量878

点赞数

分类专栏：数据挖掘文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lohaive1015/article/details/121549248

版权

本文介绍了频繁模式挖掘的基础概念，包括支持度、置信度和提升度，并通过一个具体的例题详细阐述了这些概念的应用。例题中探讨了{香蕉，可乐}的关联规则，分析了它们的支持度、置信度和是否构成强规则。

摘要由CSDN通过智能技术生成

频繁模式挖掘 (Frequent pattern mining) 从交易及关系数据库中发现条目集中的关联关系。

此方法的假设是数据项目 (data item) 被组合为交易 (transactions)，也叫项目集 (itemsets)。

目标是发现在交易中占比较高的项目的模式。

最 经典的案例是耳熟能详的啤酒和尿布的故事。数据分析人员从数据中发现购买了尿布的客户也倾向于同时买啤酒，基于这个发现 (知识)，超级市场有两种可能的选择，一是将啤酒和尿布放在一起，从而客户可以方便地一起购买；另一个选择是将啤酒和尿布尽量分开，客户为了买到两样商品需要走过更多的货架，从而增加购买其他商品的机会。如何设计业务方案 (actions) 是一个问题，因为只有将知识应用于业务后才可以真正产生价值，因此这个环节从某种角度讲更重要，也更考验数据分析人员，因为你的客户总是会问，“那么我能做什么呢”。

目前，频繁模式挖掘的 应用场景包括购物篮分析，交叉营销，目录设计，销售活动分析，网络点击流分析，以及DNA序列分析等等。

下面列出关联关系挖掘涉及到的基本概念 (concepts) 和表示方法 (notation)。

1 项目 (item) : 举例来说，对于购物行为的分析，苹果、牛奶和面包就是项目。

2 项目集 (itemset)：一个或者多个项目的集合，用 $I=\left \{ I_1, I_2, \cdots ,I_m \right \}$ 来表示。

举例来说，{苹果，牛奶，面包} 是一个项目集。

3 k-项目集 (k-itemset)， k是一个正整数，是项目集的势，简单来说，就是项目集中项目的数量，比如{苹果，牛奶，面包} 是一个 3-项目集。

4 交易 (transaction)：一个非空的项目集，拥有一个唯一的标识 (TID)，并属于一个数据库。记为 $T\in D$ ，其中 $D$ 是一个与交易相关的交易集，也叫数据集或者数据库。

举例来说， $D=\left \{ T_1, T_2 \right \}$ ，其中 $T_1=$ {苹果，牛奶，面包}， $T_2=$ {方便面，拖鞋}。

5 包含 (contain)：假设 $A$ 和 $B$ 是两个项目集， $A\subseteq I$ 且 $B \subseteq I$ 。如果

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。