第六章(3) 关联分析:关联模式评估(客观度量)

关联分析中,模式质量的评价至关重要。客观度量如支持度、置信度和提升度用于评估,但各有局限性。支持度可能忽略有意义的模式,置信度可能涉及部分相关性问题。提升度作为改进,而相关分析如皮尔逊相关系数适用于对称二元变量。非对称度量IS和考虑因果关系的度量则更为复杂。反演性、零加性和缩放不变性是客观度量的重要性质。辛普森悖论提醒我们在分析中需考虑隐藏变量。倾斜支持度分布可能导致交叉支持模式,可通过h置信度来消除虚假模式。
摘要由CSDN通过智能技术生成
  1. 关联分析会产生大量的模式,建立一组广泛接受的评价关联模式质量的标准是很重要的;分为两种:
    1. 通过统计论据建立:相互独立的项的模式或者覆盖少量事务的模式可能是伪联系;使用客观兴趣度度量:支持度、置信度、相关性
    2. 通过主观论据建立:模式被主观的判断,希望模式是提供有利信息的或者预料不到的,这需要来自领域专家的大量先验信息;主观信息加入到模式发现:
      1. 可视化
      2. 基于模板的方法
      3. 主观兴趣度度量
  2. 客观兴趣度度量:
    1. 支持度的缺点:许多潜在的有意义的模式,因为包含支持度小的项而被去除;置信度的缺点:忽略了规则后件中项集的支持度(包括部分的相关性的问题)
    2. 提升度=规则置信度/规则后件中项集的支持度;兴趣因子:对变量之间的独立性的度量;局限性:变量间的相互独立程度可能受其在总体中的占比的影响,有部分时候会得出相反的结论
    3. 相关分析:二元变量的皮尔逊相关系数;局限性:相关系数把项在事务中同时出现和同时不出现视为同等重要,更适合分析对称的二元变量,且当样本大小成比例变化时,系数不能够保持不变
    4. IS度量:非对称二元变量
    5. 分析二元变量之间联系的度量可以分为两类:对称和非对称,这是对度量而言,是对规则因果颠倒后的对比;对称度量用来评价项集,非对称度量用于分析关联规则
    6. 客观度量的一致性
    7. 客观度量的性质:
      1. 反演性:反演即两个对象反转位向量的过程;如果交换频度计数f11和f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值