频繁项集与关联规则
频繁项集:意思是经常会出现在一起的物品的集合。
关联规则:是两个物品之间可能存在很强的关联关系。
支持度:即用集合当中所有元素一起出现的次数,除以所有的数据条数
置信度:对于一个关联规则而言,它指的是A物品和B物品之间的内在关系,其实也就是条件概率。所以A->B关联规则的概率就是P(AB)/P(A)和条件概率的公式一样.
确信度:
提升度
Apriori算法实现
'''首先先安装efficient_apriori模块'''
from efficient_apriori import apriori
# 设置数据集合
data = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
# 挖掘数据频繁集项和规则
itemsets, rules = apriori(data, min_support=0.4, min_confidence=1)
print(itemsets)
print(rules)
输出结果: