文章目录
前言
关联分析:基于已有数据,找到事物间的简单关联关系或序列关联关系。
关联分析成果(即关联关系)的核心体现形式是关联规则,包括简单关联规则或序列关联规则。
一提到关联规则,就会想到Apriori算法,又会想到啤酒尿布的故事。但我们老师说这个故事是用来吸引人用的,确实这两个事物放在一起,挺有趣的。
今天先介绍一下有关简单关联规则的基本概念,这次参考的主要是 薛薇. (2014). R语言数据挖掘 (3rd ed.). 中国人民大学. ,收获颇多,也把好东西整理好分享给大家。之后再尝试用R语言练习一些简单的问题。
一、概念
1.事务和项集
名称 | 解释 |
---|---|
事务 | 简单关联分析的分析对象。(行为) |
事务标识 | 确定一个事务的唯一标识。 |
项目集合(简称项集) | 一组项目的集合 |
项目 | 例:商品、网页链接、险种 |
事务=事务标识(TID)+项目集合X
I是项目全体,包含K个项目,记为 I = { I 1 , I 2 , ⋯ , I k } I=\left\{ I_1,I_2,\cdots ,I_k \right\} I={
I1,I2,⋯,Ik}
则项集 X ⊆ I X\subseteq I X⊆I
若项集X中包含k个项目,则称项集X为k-项集
下表是4名顾客某一天的购买数据,TID是事务标识,A,B,C,D,E分别为商品代码。
TID | 项集X |
---|---|
1 | {B,E} |
2 | {A,C,D} |
3 | {A,B,C,E} |
4 | {B,D} |
这里包含4个事务,I包含5个项目(k=5)。对于3号顾客(第3个事务),一次性购买了4中商品,其项集X是个4-项集。本例包含2个2-项集、1个3-项集、1个4-项集。
2.表示形式
一般表示形式: X → Y ( S = s % , C = c % ) X\rightarrow Y\left( S=s\%,C=c\% \right) X→Y(S=s%,C=c%)
其中:
X:规则的前项(项目、项集、包含项目以及逻辑操作符的逻辑表达式)
Y:规则的后项(一个项目,表示某种结论或事实)
S:支持度
C:置信度
含义:有c%的把握程度相信有前项则会有后项,该关联规则的适用性为s%。
例:
{ 性别 ( 男 ) ⋂ 收入 ( > 5000 ) } → { 品牌 ( A ) } ( S = 80 % , C = 85 % ) \left\{ \text{性别}\left( \text{男} \right) \bigcap{\text{收入}\left( >5000 \right)} \right\} \rightarrow \left\{ \text{品牌}\left( A \right) \right\} \left( S=80\%,C=85\% \right) {
性别(男)⋂收入(>5000)}→{
品牌(A)}(S=80%,C