关联规则的评价

最新推荐文章于 2024-07-14 09:13:27 发布

a useful man

最新推荐文章于 2024-07-14 09:13:27 发布

阅读量1.5k

点赞数 1

分类专栏： python机器学习文章标签： microsoft c++ 开发语言

本文链接：https://blog.csdn.net/sinat_23971513/article/details/121574400

版权

本文探讨了关联规则评价中的问题，指出支持度和自信度并不总是能反映业务兴趣。通过购物篮分析示例，揭示了强规则可能带来的误导，并介绍了相关性系数、卡方指数等六种新的评价标准，讨论了它们的优缺点，建议在大数据场景下使用Kulc系数结合不平衡因子作为更好的评价方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍了9个关联规则评价的准则，其中全自信度、最大自信度、Kulc、cosine，Leverage是不受空值影响的，这在处理大数据集是优势更加明显，因为大数据中想MC这样的空记录更多，根据分析我们推荐使用kulc准则和不平衡因子结合的方法。

前面我们讨论的关联规则都是用支持度和自信度来评价的，如果一个规则的自信度高，我们就说它是一条强规则，但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。

一个误导我们的强规则

看这样一个例子，我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录，其中购买6000条包含游戏光碟，7500条包含影片光碟，4000条既包含游戏光碟又包含影片光碟。数据集如下表所示：

	买游戏	不买游戏	行总计
买影片	4000	3500	7500
不买影片	2000	500	2500
列总计	6000	4000	10000

假设我们设置得最小支持度为30%，最小自信度为60%。从上面的表中，可以得到：support(买游戏光碟—>买影片光碟)=4000/10000=40%，confidence(买游戏光碟—>买影片光碟)=4000/7500*100%=66%（写错了，应该是4000/6000）。这条规则的支持度和自信度都满足要求，因此我们很兴奋，我们找到了一条强规则，于是我们建议超市把影片光碟和游戏光碟放在一起，可以提高销量。

可是我们想想，一个喜欢的玩游戏的人会有时间看影片么，这个规则是不是有问题，事实上这条规则误导了我们。在整个数据集中买影片光碟的概率p(买影片)=7500/10000=75%，而买游戏的人也买影片的概率只有66%，66%<75%恰恰说明了买游戏光碟抑制了影片光碟的购买，也就是说买了游戏光碟的人更倾向于不买影片光碟，这才是符合现实的。

从上面的例子我们看到，支持度和自信度并不能过成功滤掉那些我们不感兴趣的规则，因此我们需要一些新的评价标准，下面介绍六中评价标准：相关性系数，卡方指数，全自信度、最大自信度、Kulc、cosine距离。

相关性系数lift

从上面游戏和影片的例子中，我们可以看到游戏和影片不是正相关的，因此用相关性度量关联规则可以过滤这样的规则，对于规则A—>B或者B—>A，lift(A,B)=P(A交B)/(P(A)*P(B))，如果lift(A,B)>1表示A、B呈正相关，lift(A,B)<1表示A、B呈负相关，lift(A,B)=1表示A、B不相关（独立）。实际运用中，正相关和负相关都是我们需要关注的，而独立往往是我们不需要的，两个商品都没有相互影响也就是不是强规则，lift(A,B)等于1的情形也很少，一般只要接近于1我们就认为是独立了。

注意相关系数只能确定相关性，相关不是因果，所以A—>B或者B—>A两个规则的相关系数是一样的，另外lift(A,B)=P(A交B)/(P(A)*P(B))=P(A)*P(B|A)/(P(A)*P(B))=P(B|A)/P(B)=confiden