数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)

模式评估是识别有趣知识模式的关键步骤,涉及支持度、置信度、Lift、Chi-Square等度量。尽管支持置信框架有用,但存在局限性。Lift度量事件相关性,当值大于1时表示正相关,小于1表示负相关。Chi-Square Measures用于判断事件独立性。然而,某些情况如Null Invariance Measures和Imbalanced Ratio需要额外考虑,以避免错误结论。
摘要由CSDN通过智能技术生成

Pattern Evaluation简介

模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。

我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的,所以它不足以进行模式评估,甚至在一些情况下,甚至常用的lift和chi-square measures也没有很好的效果。

这里将介绍模式或规则评估中——兴趣的概念,展示null-invariance的重要性,并比较多个兴趣度测量。

基本概念

什么样的模式是有趣的

一个模式是有趣的(interesting),则它具有以下几个特征:

  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 是潜在有用的
  • 是新颖的

如果一个模式证实了用户寻求证实的某种假设,则它是有趣的。有趣的模式代表知识,可以用于决策。

模式兴趣度的两种度量

  • 客观度量
    • 这个度量方法基于所发现模式的结构和关于它们的统计量。
    • 对于形如 xy 的关联规则,一种客观度量是规则的支持度(support),表示事务数据库中满足规则的事务所占的百分比。
    • 另一种客观度量是置信度(confidence),它评估所发现的规则的确信程度。
    • 关联规则的一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。
  • 主观独立
    • 主观兴趣度度量基于用户对数据的期望。
    • 这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的期望相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)。
    • 意料之内的模式也可能是有趣的,如果它们证实了用户希望证实的假设,或与用户的预感相似。
  • 其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。

注意:在这里我多说一句,在我上了PDDM的课程之后,我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚,所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料,所以在我明确地知道这些概念之前,我还一直以为Pattern Evaluation是模型评估。

支持置信框架的局限性

图一

playbasketballeatcereal [40%, 66.7%]
¬playbasketballeatcereal [35%, 87.5%]

如果仅仅依靠支持置信框架得出的关联规则,我们就不能轻易地得出一个确切的结论。这就是支持置信框架的局限性。

Lift和Chi-Square Measures

Lift

Lift 是用于判断事件的独立与相关性的,在一定程度上非常类似概率论中证明两个事件独立性的方法。其具体定义如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值