【理论篇】数据挖掘第六章挖掘频繁模式、关联和相关性：基本概念和方法（下）

数据门徒

于 2024-09-17 11:03:17 发布

阅读量519

点赞数 14

文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/data_disciple/article/details/142299380

版权

说明：文章为《数据挖掘：概念与技术原书第03版》的学习笔记，该书是数据挖掘领域的经典之作，想了解更多内容请参阅原著。

首先祝大家中秋快乐，本文章接上篇【理论篇】数据挖掘第六章挖掘频繁模式、关联和相关性：基本概念和方法（上）

思考：满足最小支持度和最小置信度的模式一定是有趣的吗？

一、规则不一定是有趣的

规则是否有趣可以主观或客观地评估。最终，只有用户能够评判一个给定的规则是否是有趣的，并且这种判断是主观的，可能因用户而异。然而，根据数据“背后”的统计量，客观兴趣度度量可以用来清除无趣的规则，而不向用户提供。

一个误导的“强”关联规则。假设我们对分析涉及购买计算机游戏和录像的 AllElectronics 的事务感兴趣。设 game表示包含计算机游戏的事务，而video 表示包含录像的事务。在所分析的10000个事务中，数据显示6000个顾客事务包含计算机游戏，7500 个事务包含录像，而4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据挖掘程序在该数据上运行，使用最小支持度30%，最小置信度60%将发现下面的关联规则：

规则(6.6)是强关联规则，因为它的支持度为40%，置信度为60%，分别满足最小支持度和最小置信度阈值。然而，规则(6.6)是误导，因为购买录像的概率是75%，比66%还高。事实上，计算机游戏和录像是负相关的，因为买一种实际上降低了买另一种的可能性。不完全理解这种现象，容易根据规则(6.6)做出不明智的商务决定。寻求支持度 - 置信度框架的替代，对挖掘有趣的数据联系可能是有用的。

二、从关联分析到相关分析

正如我们在上面已经看到的，支持度和置信度度量不足以过滤掉无趣的关联规则，我们需要引进其他度量。

提升度(Iit)是一种简单的相关性度量，定义如下。项集A的出现独立于项集B的出现，如果P(A U B)=P(A)P(B)；否则，作为事件，项集A和B是依赖的(dependent)和相关的(correlated)。这个定义容易推广到两个以上的项集。A和B出现之间的提开度可以通过计算下式得到

如果(6.8)式的值小于1，则A的出现与B的出现是负相关的，意味一个出线可能导致另一个不出现。如果结果值大于1，则A和B是正相关的，意味每一个的出现都蕴涵另一个的出现。如果结果值等于1，则A和B是独立的，它们之间没有相关性。

研究的第二种相关性度量是X²度量，取相依表的位置(A和B对)的观测和期望值的平方差除以期望值，并对相依表的所有位置求和（例子书本上写得很好，直接贴图了，望理解）。

三、模式评估度量比较

除了上文提到的提升度和X²，还有全置信度、最大置信度、Kulczynski和余弦。

度量分有零变的度量（受零事务影响）和零不变的度量（不受零事务影响），零事务是不包含任何考察项集的事务，例如我们现在考察“面包”=>“牛奶”是不是有趣的模式，都不包含“面包”，“牛奶”的订单就是零事务。

零变的度量（受零事务影响）

1、提升度

2、X²

零不变的度量（不受零事务影响）

1、全置信度

2、最大置信度

3、Kulczynski

4、余弦

5、不平衡比

总之，仅使用支持度和置信度度量来挖掘关联可能产生大量规则，其中大部分规则用户是不感兴趣的。或者，我们可以用模式兴趣度度量来扩展支持度-置信度框架，有助于把挖掘聚焦到具有强模式联系的规则。附加的度量显著地减少了所产生规则的数量，并且导致更有意义规则的发现。除了本节介绍的相关性度量外，文献中还研究了许多其他兴越度量。不幸的是，大部分度量都不具有零不变性。由于大型数据集常常具有许多零事务，因此在进行相关分析选择合适的兴趣度最时，考虑零不变性是重要的。这里研究的4个零不变的度量(全置信度、最大置信度、Kulczynshi 和余弦)中，我们推荐Kulczynski与不平衡比配合使用。