一、关联规则
关联规则即P→Q且P∩Q≠∅(P发生则Q发生)
支持度:support(p→q)=(p∩q)/n
置信度:confidence(p→q)=(p∩q)/p(条件概率)
支持度大于一定值(δ)的项集成为频繁的项集
置信度大于一定值(φ)的关联规则成为强关联规则
大图像(the big picture):
第一步,找出所有频繁项集
第二步,根据项集的所有非空子集,找出所有关联规则
误区:
1.一个规则很强不代表这个规则有意义(条件概率可能比先验概率更低)
2.两个商品出现概率差异较大时,规则可能也没有意义
3.条件概率仅代表相关性,不等于因果性
apriori算法:
数据挖掘十大算法之一
核心理念:
1.一个频繁的项集的任意子集都必须是频繁的
2.一个项集是不频繁的,则他的任意超集也是不频繁的(1的逆否命题)
具体操作:
由一个特定规模(一般为1)的项集开始进行循环操作:
1.扫描数据,剔除不频繁的项集
2.将项集合并为规模+1的项集
重复以上操作,直到项集规模达到最大
Lk→Ck+1生成规则:
将前K-1项都相同,仅第K项不同的项集合并,作为k+1规模的备选集(注意不一定保证频繁)
二、序列模式
序列:一系列有先后顺序的元素(项集)
s支持t:t中每一项都是s中对应项的子项(顺序不能改变)
备选集由于有顺序的因素,要比之前的大很多
备选集生成规则:
若s1去掉头,s2去掉尾中间相同,则将s2的尾加到s1的头
阅读材料: