参考文献:《python数据挖掘概念、方法与实践》第二章
频繁项集:在数据集中出现次数相对大的项目组合,有两个项目的项集成为2-项集或配对,有三个项目的项集成为3-项集或三元组
评价关联规则的好坏:数据库的支持程度、对规则本身的置信度以及找出的规律所增加的价值
量化”频繁“的手段
支持度:数据库中项集出现的次数。为了使支持度更有意义,设置最小支持阈值,即指定项集出现次数占数据总量的百分比,这个百分比要对问题领域有意义,超过这个阈值,即视为频繁项集。表示方法:
support(X->Y) = P(XuY)
置信度:这里置信度是一种有向关系,如”X导致Y的置信度为已知X的情况下Y的概率“记为:
confidence(X->Y) = P(Y|X) = support(XuY) / support(x)
关联规则:先导(确定项)->后继(结果项),如果左右点到,则需要重新计算关联规则。示例:
a -> b,c
[支持度=1%,置信度=40%]
这条规则读作:数据库中有1%包含a,b,c的组合,在所有包含a的数据中,有40%