【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(下)

说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。

首先祝大家中秋快乐,本文章接上篇【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(上)

思考:满足最小支持度最小置信度的模式一定是有趣的吗?

一、规则不一定是有趣的

        规则是否有趣可以主观或客观地评估。最终,只有用户能够评判一个给定的规则是否是有趣的,并且这种判断是主观的,可能因用户而异。然而,根据数据“背后”的统计量, 客观兴趣度度量可以用来清除无趣的规则,而不向用户提供。

        一个误导的“强”关联规则。假设我们对分析涉及购买计算机游戏和录像的 AllElectronics 的事务感兴趣。设 game表示包含计算机游戏的事务,而video 表示包含录像 的事务。在所分析的10000个事务中,数据显示6000个顾客事务包含计算机游戏,7500 个事务包含录像,而4000个事务同时包含计算机游戏和录像。假设发现关联规则的数据 挖掘程序在该数据上运行,使用最小支持度30%,最小置信度60%将发现下面的关联规则:

        规则(6.6)是强关联规则,因为它的支持度为40%,置信度为60%,分别满足最小支持度和最小置信度阈值。然而,规则(6.6)是误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。不完全理解这种现象,容易根据规则(6.6)做出不明智的商务决定。寻求支持度 - 置信度框架的替代,对挖掘有趣的数据联系可能是有用的。

二、从关联分析到相关分析

        正如我们在上面已经看到的,支持度和置信度度量不足以过滤掉无趣的关联规则,我们需要引进其他度量。

        提升度(Iit)是一种简单的相关性度量,定义如下。项集A的出现独立于项集B的出现,如果P(A U B)=P(A)P(B);否则,作为事件,项集A和B是依赖的(dependent)和 相关的(correlated)。这个定义容易推广到两个以上的项集。A和B出现之间的提开度可以通过计算下式得到

        如果(6.8)式的值小于1,则A的出现与B的出现是负相关的,意味一个出线可能导致另一个不出现。如果结果值大于1,则A和B是正相关的,意味每一个的出现都蕴涵另一个的出现。如果结果值等于1,则A和B是独立的,它们之间没有相关性。

        研究的第二种相关性度量是X²度量,取相依表的位置(A和B对)的观测和期望值的平方差除以期望值,并对相依表的所有位置求和(例子书本上写得很好,直接贴图了,望理解)。

三、模式评估度量比较

        除了上文提到的提升度和X²,还有全置信度最大置信度Kulczynski余弦。  

        度量分有零变的度量受零事务影响)和零不变的度量不受零事务影响),零事务是不包含任何考察项集的事务,例如我们现在考察“面包”=>“牛奶”是不是有趣的模式,都不包含“面包”,“牛奶”的订单就是零事务

        零变的度量(受零事务影响)

        1、提升度

        2、X²

        零不变的度量(不受零事务影响)

        1、全置信度

        2、最大置信度

        3、Kulczynski

        4、余弦

        5、不平衡比

        总之,仅使用支持度和置信度度量来挖掘关联可能产生大量规则,其中大部分规则用户是不感兴趣的。或者,我们可以用模式兴趣度度量来扩展支持度-置信度框架,有助于把挖掘聚焦到具有强模式联系的规则。附加的度量显著地减少了所产生规则的数量, 并且导致更有意义规则的发现。除了本节介绍的相关性度量外,文献中还研究了许多其他兴越度量。不幸的是,大部分度量都不具有零不变性。由于大型数据集常常具有许多零事务,因此在进行相关分析选择合适的兴趣度最时,考虑零不变性是重要的。这里研究的4个零不变的度量(全置信度、最大置信度、Kulczynshi 和余弦)中,我们推荐Kulczynski与不平衡比配合使用。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值