数据挖掘算法——关联规则挖掘算法

最新推荐文章于 2024-04-05 17:31:34 发布

Instant_

最新推荐文章于 2024-04-05 17:31:34 发布

阅读量1.7w

点赞数 3

分类专栏：数据挖掘算法

本文链接：https://blog.csdn.net/sshhiixx/article/details/45113907

版权

1基本概念

假定作为超市的销售经理，你想更多地了解顾客的购物习惯，尤其是，你想知道“顾客可能会在一次购物同时购买哪些商品？”经常同时购买的商品可以摆放的近一些，以便进一步刺激这些商品同时销售。也可以将硬件和软件摆放在商店的两头，可能诱发买这些商品的顾客一路挑选其它的商品。

其中 TID为事务的标号，可以理解为顾客的一次购买行为，例如TID=1表示，某一次一位顾客同时购买了面包与牛奶。

项集是项的集合，包含k个项的集合称为k项集，例如{ 面包，牛奶}为2项集，{ 面包，尿布，啤酒，鸡蛋}为4项集。

例如：购买计啤酒的人趋向于同时购买尿布

啤酒=> 尿布[ support = 60% ; confidence = 100% ]

Support：支持度百分之60显示所有事务中有百分之60显示啤酒和尿布被同时购买。

confidence：置信度百分之100表明所有购买啤酒的顾客有百分之100同时购买了尿布。

规则的支持度和规则的置信度是规则度量的两种方式。

支持度：确定规则可以用于给定数据集的频繁程度，给定一个最小支持度阈值，若一个项集的支持度大于阈值，则可以把此项集叫做频繁项集。

置信度：确定B在包含A的事务中出现的频繁程度。

Support（ A=> B ) = P ( A U B )

support(A U B ) support_count(A U B )

Confidence( A => B )＝Ｐ（Ｂ｜Ａ）＝　—————————= ———————————

support( A ) support_count(A )

其中support_count是支持度计数，和支持度的区别在于，支持度是支持度计数和所有事务的比值，

即： support_count(A )

support(A ) = ———————————— ，其中U为全集。

support_count(U )

（1）在所有项集中找出满足最小支持度阈值的所有项集，这些项集称作频繁项集。

（2

关注