- 关联分析会产生大量的模式,建立一组广泛接受的评价关联模式质量的标准是很重要的;分为两种:
- 通过统计论据建立:相互独立的项的模式或者覆盖少量事务的模式可能是伪联系;使用客观兴趣度度量:支持度、置信度、相关性
- 通过主观论据建立:模式被主观的判断,希望模式是提供有利信息的或者预料不到的,这需要来自领域专家的大量先验信息;主观信息加入到模式发现:
- 可视化
- 基于模板的方法
- 主观兴趣度度量
- 客观兴趣度度量:
- 支持度的缺点:许多潜在的有意义的模式,因为包含支持度小的项而被去除;置信度的缺点:忽略了规则后件中项集的支持度(包括部分的相关性的问题)
- 提升度=规则置信度/规则后件中项集的支持度;兴趣因子:对变量之间的独立性的度量;局限性:变量间的相互独立程度可能受其在总体中的占比的影响,有部分时候会得出相反的结论
- 相关分析:二元变量的皮尔逊相关系数;局限性:相关系数把项在事务中同时出现和同时不出现视为同等重要,更适合分析对称的二元变量,且当样本大小成比例变化时,系数不能够保持不变
- IS度量:非对称二元变量
- 分析二元变量之间联系的度量可以分为两类:对称和非对称,这是对度量而言,是对规则因果颠倒后的对比;对称度量用来评价项集,非对称度量用于分析关联规则
- 客观度量的一致性
- 客观度量的性质:
- 反演性:反演即两个对象反转位向量的过程;如果交换频度计数f11和f
第六章(3) 关联分析:关联模式评估(客观度量)
最新推荐文章于 2023-12-08 10:24:14 发布
关联分析中,模式质量的评价至关重要。客观度量如支持度、置信度和提升度用于评估,但各有局限性。支持度可能忽略有意义的模式,置信度可能涉及部分相关性问题。提升度作为改进,而相关分析如皮尔逊相关系数适用于对称二元变量。非对称度量IS和考虑因果关系的度量则更为复杂。反演性、零加性和缩放不变性是客观度量的重要性质。辛普森悖论提醒我们在分析中需考虑隐藏变量。倾斜支持度分布可能导致交叉支持模式,可通过h置信度来消除虚假模式。
摘要由CSDN通过智能技术生成