●
关联规则( Association Rules )反映一个事物与
其他事物之间的相互依存性和关联性。如果两个
或者多个事物之间存在一定的关联关系,那么,
其中一个事物就能够通过其他事物预测到。首先
被Agrawal, Imielinski and Swami在1993年的
SIGMOD会议_上提出.
●
关联规则挖掘是数据挖掘中最活跃的研究方法之
。典型的关联规则发现问题是对超市中的购物
篮数据( Market Basket )进行分析。通过发现
顾客放入购物篮中的不同商品之间的关系来分析
顾客的购买习惯。
- 关联规则的支持度
代表规则的重要性
支持度计算在所有的交易集中,既有A又有B的概率D 例 如在5条记录中,既有橙计又有可乐的记录有2条 。 则此条规则的支持度为 2/5=0.4,
Support(A —>B)=P(AB)
对于关联规则R: X=Y,其中Xcl, Ycl,并且
XnY=φ。
规则R的的支持度(Support)是交易集中同时包含X
和Y的交易数与所有交易数之比。
support
(
X
⇒
Y
)
=
count
(
X
∪
Y
)
∣
D
∣
\text { support }(X \Rightarrow Y)=\frac{\operatorname{count}(X \cup Y)}{|D|}
support (X⇒Y)=∣D∣count(X∪Y)
- 关联规则的置信度
置信度表示了这条规则有多大程度上值得可信。
代表规则的可信度
置信度表示了这条规则有多大程度上值得可信 。设条件 的项的集合为A 结果的集合为B 。 置信度计算在A中 ,同 时也含有B的概率(~P: 厅A ,.th’e,n’ Btn街冉。 即 Confidencel(A---->B)=P{BIA)即置信度就是条件概率
对于关联规则R: X→Y ,
其中Xcl,Ycl,并且
XnY=φ。
规则R的置信度(Confidence)是指包含X和Y的交易
数与包含X的交易数之比
confidence
(
X
→
Y
)
=
support
(
X
∪
Y
)
support
(
X
)
\text { confidence }(\mathrm{X} \rightarrow \mathrm{Y})=\frac{\text { support }(\mathrm{X} \cup \mathrm{Y})}{\text { support }(\mathrm{X})}
confidence (X→Y)= support (X) support (X∪Y)
Confidence
(
x
→
Y
)
=
Support
(
X
∪
Y
)
Support
(
x
)
=
Count
(
X
∪
Y
)
∣
D
∣
Count
(
X
)
∣
D
∣
=
C
o
u
n
t
(
X
∪
Y
)
C
o
u
n
t
(
X
)
\operatorname{Confidence}(x \rightarrow Y)=\frac{\text { Support }(\mathrm{X} \cup \mathrm{Y})}{\text { Support }(x)}=\frac{\frac{\operatorname{Count}(\mathrm{X} \cup \mathrm{Y})}{|D|}}{\frac{\operatorname{Count}(\mathrm{X})}{|D|}}=\frac{{Count}(\mathrm{X} \cup \mathrm{Y}) }{{Count}(\mathrm{X})}
Confidence(x→Y)= Support (x) Support (X∪Y)=∣D∣Count(X)∣D∣Count(X∪Y)=Count(X)Count(X∪Y)
-
关联规则的最小支持度和最小置信度
- 关联规则的最小支持度也就是衡量频繁集的最小
支持度(Minimum Support) ,记为minsup ,它
用于衡量规则需要满足的最低重要性。 - 关联规则的最小置信度(Minimum Confidence)
记为minconf ,它表示关联规则需要满足的最低
可靠性。
- 关联规则的最小支持度也就是衡量频繁集的最小
-
强关联规则
如果规则R:X------>Y满足 support ( X ⇒ Y ) ≥ min − sup \text { support }(X \Rightarrow Y) \geq \min _{-} \text {sup } support (X⇒Y)≥−minsup 且
confidence ( X ⇒ Y ) ≥ min − conf \text { confidence }(X \Rightarrow Y) \geq \min _{-} \text {conf } confidence (X⇒Y)≥−minconf
,称关联规则X=>Y为强关联规则,否则称关联规则X= >Y为弱关联规则。
在挖掘关联规则时,产生的关联规则要经过minsup和minconf的衡量筛选出来的强关联规则才能用干指旦商家的决策
eg:
support(A ->C)
=
Court(AUC)
∣
D
∣
=
1
2
>
=
minsup
=
1
2
Confidence
(
A
→
C
)
=
Support
(
A
∪
C
)
Sp
u
port
(
A
)
=
66.6
%
>=minconf
=
1
2
\begin{array}{l}{\text { support(A ->C)} =\frac{\text { Court(AUC) }}{|D|}=\frac{1}{2} >= \text { minsup} =\frac{1}{2}} \\ {\text { Confidence } (A \rightarrow C)=\frac{\text { Support }(A \cup C)}{\text { Sp } u \text { port }(A)}=66.6 \% \text { >=minconf}} \\ {=\frac{1}{2}}\end{array}
support(A ->C)=∣D∣ Court(AUC) =21>= minsup=21 Confidence (A→C)= Sp u port (A) Support (A∪C)=66.6% >=minconf=21
support(A)=Count(A)/|D|
即一条规则可表述为,如果一个颐客购买了橙汁,则有 50%(置信度)的可能购买可乐。而这样的情况 ( 即买了橙 汁会再买可乐) 会有4rQ%(支持度)的可能发生E