1、关联规则
项:数据库中不可分割的最小单位信息
项集:项的集合,设集合I={i1,.....ik} ,I 中项目个数为k,集合称为k-项集
2、支持度、最小支持度、置信度
假设A中有N条数据
支持度:表示项集在整个A中的频率,Support=sum(x)/N
最小支持度:阈值参数,支持度≥最小支持度的项集称为频繁项集
置信度:表示规则X---->Y,即在X发生条件下,Y发生的概率
confidence=support(xUy) / support(x)
3、提升度
判断X---->Y中的X与Y是否独立,如果独立 该规则是无效的
Lift(X---->Y) = support(xUy) / support(x)*support(y) =confidence(X---->Y) / support(y)
若值=1,独立; 值<1 ,负相关; 值>1 正相关
4、算法步骤:
(1)通过迭代,找出所有的频繁项集(支持度大于最小支持度)
(为了找Lk,通过将Lk-1与自身连接,产生k项集)
(2)利用频繁项集构造出满足用户最小信任度的规则
5、例子:
现有A、B、C、D、E,5种物品的4条交易记录,找出3种物品的关联情况。最小支持度为50%
A、C、D
B、C、E
A、B、C、E
B、E