一、简介
1、关联规则分析是数据挖掘中最活跃的研究方法之一
2、是揭示数据内在结构特征的重要手段(找出各项之间的关联关系,这种关系并没有在数据中直接表示出来)
3、分为:简单关联关系或序列关联关系
4、核心体现形式:关联规则(简单关联规则或序列关联规则)
二、简单关联关系
1、事务(简单关联关系的分析对象):由事务标识(TID)和项目集合X组成。
TID | 项集X |
1 | ACD |
2 | BCE |
3 | ABCD |
4 | BE |
(1)事务标识是确定事务的唯一标识
(2)项集是一组项目的集合,如上表为4项集
(3)项集的出现频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数
2、简单关联规则: X→Y(S=s%,C=c%)
X成为规则的前项,Y成为规则的后项,S=s%表示规则支持度为s%, C=c%表示规则置信度为c%
(1)含义:由c%的把握程度相信有前项则有后项,该关联规则的使用性为s%,规则支持度和置信度是对关联规则的评价测度
(2)例:面包→牛奶(S=85%,C=90%)
性别(女) ∩ 收入(>5000)→