Hw3
1
a
c ( ∅ → A ) = σ ( ∅ ∪ A ) σ ( ∅ ) = σ ( A ) N = s ( ∅ → A ) c_{(\emptyset\rightarrow A)}=\frac{\sigma(\emptyset\cup A)}{\sigma(\emptyset)}=\frac{\sigma(A)}{N}=s_{(\emptyset\rightarrow A)} c(∅→A)=σ(∅)σ(∅∪A)=Nσ(A)=s(∅→A)
c ( A → ∅ ) = σ ( A ∪ ∅ ) σ ( A ) = 100 % c_{(A\rightarrow\emptyset)}=\frac{\sigma(A\cup\emptyset)}{\sigma(A)}=100\% c(A→∅)=σ(A)σ(A∪∅)=100%
b
c
1
=
σ
(
p
∪
q
)
σ
(
p
)
c_1=\frac{\sigma(p\cup q)}{\sigma(p)}
c1=σ(p)σ(p∪q)
c
2
=
σ
(
p
∪
q
∪
r
)
σ
(
p
)
c_2=\frac{\sigma(p\cup q\cup r)}{\sigma(p)}
c2=σ(p)σ(p∪q∪r)
c
3
=
σ
(
p
∪
q
∪
r
)
σ
(
p
∪
q
)
c_3=\frac{\sigma(p\cup q\cup r)}{\sigma(p\cup q)}
c3=σ(p∪q)σ(p∪q∪r)
易知:
σ
(
p
∪
q
∪
r
)
≤
σ
(
p
∪
q
)
≤
σ
(
p
)
\sigma(p\cup q\cup r)\leq\sigma(p\cup q)\leq\sigma(p)
σ(p∪q∪r)≤σ(p∪q)≤σ(p)
所以有:
c
2
≤
c
1
c_2\leq c_1
c2≤c1,
c
2
≤
c
3
c_2\leq c_3
c2≤c3
即:规则
c
2
c_2
c2 置信度最低
c
因为
c
1
,
c
2
,
c
3
c_1,c_2,c_3
c1,c2,c3 支持度相同
所以有:
σ
(
p
∪
q
)
=
σ
(
p
∪
q
)
=
σ
(
p
∪
q
∪
r
)
\sigma(p\cup q)=\sigma(p\cup q)=\sigma(p\cup q\cup r)
σ(p∪q)=σ(p∪q)=σ(p∪q∪r)
即:
σ
(
p
∪
q
∪
r
)
=
σ
(
p
∪
q
)
≤
σ
(
p
)
\sigma(p\cup q\cup r)=\sigma(p\cup q)\leq\sigma(p)
σ(p∪q∪r)=σ(p∪q)≤σ(p)
所以有:
c
1
=
c
2
≤
c
3
c_1=c_2\leq c_3
c1=c2≤c3
即:规则
c
3
c_3
c3 置信度最高
d
可能
例如:
σ
(
A
)
=
50
%
\sigma(A)=50\%
σ(A)=50%
σ
(
B
)
=
80
%
\sigma(B)=80\%
σ(B)=80%
σ
(
C
)
=
50
%
\sigma(C)=50\%
σ(C)=50%
σ
(
A
∪
B
)
=
50
%
\sigma(A\cup B)=50\%
σ(A∪B)=50%
σ
(
B
∪
C
)
=
50
%
\sigma(B\cup C)=50\%
σ(B∪C)=50%
σ
(
A
∪
C
)
=
20
%
\sigma(A\cup C)=20\%
σ(A∪C)=20%
m
i
n
c
o
n
f
=
50
%
minconf=50\%
minconf=50%
则有:
c
(
A
→
B
)
=
σ
(
A
∪
B
)
σ
(
A
)
=
100
%
c_{(A\rightarrow B)}=\frac{\sigma(A\cup B)}{\sigma(A)}=100\%
c(A→B)=σ(A)σ(A∪B)=100%
c
(
B
→
C
)
=
σ
(
B
∪
C
)
σ
(
B
)
=
62.5
%
c_{(B\rightarrow C)}=\frac{\sigma(B\cup C)}{\sigma(B)}=62.5\%
c(B→C)=σ(B)σ(B∪C)=62.5%
c
(
A
→
C
)
=
σ
(
A
∪
C
)
σ
(
A
)
=
40
%
c_{(A\rightarrow C)}=\frac{\sigma(A\cup C)}{\sigma(A)}=40\%
c(A→C)=σ(A)σ(A∪C)=40%
此时满足:
c
(
A
→
B
)
≥
m
i
n
c
o
n
f
c_{(A\rightarrow B)}\geq minconf
c(A→B)≥minconf
c
(
B
→
C
)
≥
m
i
n
c
o
n
f
c_{(B\rightarrow C)}\geq minconf
c(B→C)≥minconf
而:
c
(
A
→
C
)
≤
m
i
n
c
o
n
f
c_{(A\rightarrow C)}\leq minconf
c(A→C)≤minconf
2
a
ζ \zeta ζ 是反单调的
取 k = 2 和 3 k=2和3 k=2和3 的情况:
ζ ( { A , B } ) = m i n [ c ( A → B ) , c ( B → A ) ] = m i n [ σ ( A ∪ B ) σ ( A ) , σ ( A ∪ B ) σ ( B ) ] = σ ( A ∪ B ) m a x [ σ ( A ) , σ ( B ) ] \begin {aligned}\zeta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned} ζ({A,B})=min[c(A→B),c(B→A)]=min[σ(A)σ(A∪B),σ(B)σ(A∪B)]=max[σ(A),σ(B)]σ(A∪B)
ζ ( { A , B , C } ) = m i n [ c ( A → B C ) , c ( B → A C ) , c ( C → A B ) ] = m i n [ σ ( A ∪ B ∪ C ) σ ( A ) , σ ( A ∪ B ∪ C ) σ ( B ) , σ ( A ∪ B ∪ C ) σ ( C ) ] = σ ( A ∪ B ∪ C ) m a x [ σ ( A ) , σ ( B ) , σ ( C ) ] \begin {aligned}\zeta(\set{A,B,C})&=min[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A)},\frac{\sigma(A\cup B \cup C)}{\sigma(B)},\frac{\sigma(A\cup B \cup C)}{\sigma(C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned} ζ({A,B,C})=min[c(A→BC),c(B→AC),c(C→AB)]=min[σ(A)σ(A∪B∪C),σ(B)σ(A∪B∪C),σ(C)σ(A∪B∪C)]=max[σ(A),σ(B),σ(C)]σ(A∪B∪C)
因为有 σ ( A ∪ B ) ≥ σ ( A ∪ B ∪ C ) \sigma(A\cup B)\geq\sigma(A\cup B \cup C) σ(A∪B)≥σ(A∪B∪C),且 m a x [ σ ( A ) , σ ( B ) ] ≤ m a x [ σ ( A ) , σ ( B ) , σ ( C ) ] max[\sigma(A),\sigma(B)]\leq max[\sigma(A),\sigma(B),\sigma(C)] max[σ(A),σ(B)]≤max[σ(A),σ(B),σ(C)]
所以可以得到:
{ A , B } ⊂ { A , B , C } \set{A,B}\subset\set{A,B,C} {A,B}⊂{A,B,C} 时,有 ζ ( { A , B } ) ≥ ζ ( { A , B , C } ) \zeta(\set{A,B})\geq\zeta(\set{A,B,C}) ζ({A,B})≥ζ({A,B,C})
所以 ζ \zeta ζ 是反单调的
b
η \eta η 是非单调的
同样取 k = 2 和 3 k=2和3 k=2和3:
η ( { A , B } ) = m i n [ c ( A → B ) , c ( B → A ) ] = m i n [ σ ( A ∪ B ) σ ( A ) , σ ( A ∪ B ) σ ( B ) ] = σ ( A ∪ B ) m a x [ σ ( A ) , σ ( B ) ] \begin {aligned}\eta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned} η({A,B})=min[c(A→B),c(B→A)]=min[σ(A)σ(A∪B),σ(B)σ(A∪B)]=max[σ(A),σ(B)]σ(A∪B)
η ( { A , B , C } ) = m i n [ c ( A B → C ) , c ( B C → A ) , c ( A C → B ) ] = m i n [ σ ( A ∪ B ∪ C ) σ ( A ∪ B ) , σ ( A ∪ B ∪ C ) σ ( B ∪ C ) , σ ( A ∪ B ∪ C ) σ ( A ∪ C ) ] = σ ( A ∪ B ∪ C ) m a x [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( ( A ∪ C ) ] \begin {aligned}\eta(\set{A,B,C})&=min[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup B)},\frac{\sigma(A\cup B \cup C)}{\sigma(B\cup C)},\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned} η({A,B,C})=min[c(AB→C),c(BC→A),c(AC→B)]=min[σ(A∪B)σ(A∪B∪C),σ(B∪C)σ(A∪B∪C),σ(A∪C)σ(A∪B∪C)]=max[σ(A∪B),σ(B∪C),σ((A∪C)]σ(A∪B∪C)
有:
σ
(
A
∪
B
)
≥
σ
(
A
∪
B
∪
C
)
\sigma(A\cup B)\geq\sigma(A\cup B \cup C)
σ(A∪B)≥σ(A∪B∪C)
和
m
a
x
[
σ
(
A
)
,
σ
(
B
)
]
≥
m
a
x
[
σ
(
A
∪
B
)
,
σ
(
B
∪
C
)
,
σ
(
A
∪
C
)
]
max[\sigma(A),\sigma(B)]\geq max[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)]
max[σ(A),σ(B)]≥max[σ(A∪B),σ(B∪C),σ(A∪C)]
(因为
m
i
n
[
σ
(
A
)
,
σ
(
B
)
]
≥
σ
(
A
∪
B
)
min[\sigma(A),\sigma(B)]\geq \sigma(A\cup B)
min[σ(A),σ(B)]≥σ(A∪B))
所以无法比较 η ( { A , B } ) \eta(\set{A,B}) η({A,B}) 和 η ( { A , B , C } ) \eta(\set{A,B,C}) η({A,B,C}) 的大小关系
所以 η \eta η 是非单调的
c - (a)
ζ ′ \zeta' ζ′ 是非单调的
ζ ′ ( { A , B } ) = m a x [ c ( A → B ) , c ( B → A ) ] = σ ( A ∪ B ) m i n [ σ ( A ) , σ ( B ) ] \begin {aligned}\zeta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned} ζ′({A,B})=max[c(A→B),c(B→A)]=min[σ(A),σ(B)]σ(A∪B)
ζ ′ ( { A , B , C } ) = m a x [ c ( A → B C ) , c ( B → A C ) , c ( C → A B ) = σ ( A ∪ B ∪ C ) m i n [ σ ( A ) , σ ( B ) , σ ( C ) ] \begin {aligned}\zeta'(\set{A,B,C})&=max[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned} ζ′({A,B,C})=max[c(A→BC),c(B→AC),c(C→AB)=min[σ(A),σ(B),σ(C)]σ(A∪B∪C)
有:
σ
(
A
∪
B
)
≥
σ
(
A
∪
B
∪
C
)
\sigma(A\cup B)\geq\sigma(A\cup B \cup C)
σ(A∪B)≥σ(A∪B∪C)
和
m
i
n
[
σ
(
A
)
,
σ
(
B
)
]
≥
m
i
n
[
σ
(
A
)
,
σ
(
B
)
,
σ
(
C
)
]
min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)]
min[σ(A),σ(B)]≥min[σ(A),σ(B),σ(C)]
所以无法比较 ζ ′ ( { A , B } ) \zeta'(\set{A,B}) ζ′({A,B}) 和 ζ ′ ( { A , B , C } ) \zeta'(\set{A,B,C}) ζ′({A,B,C}) 的大小关系
所以 ζ ′ \zeta' ζ′ 是非单调的
c - (b)
η ′ \eta' η′ 是非单调的
η ′ ( { A , B } ) = m a x [ c ( A → B ) , c ( B → A ) ] = σ ( A ∪ B ) m i n [ σ ( A ) , σ ( B ) ] \begin {aligned}\eta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned} η′({A,B})=max[c(A→B),c(B→A)]=min[σ(A),σ(B)]σ(A∪B)
η ′ ( { A , B , C } ) = m a x [ c ( A B → C ) , c ( B C → A ) , c ( A C → B ) ] = σ ( A ∪ B ∪ C ) m i n [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( ( A ∪ C ) ] \begin {aligned}\eta'(\set{A,B,C})&=max[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned} η′({A,B,C})=max[c(AB→C),c(BC→A),c(AC→B)]=min[σ(A∪B),σ(B∪C),σ((A∪C)]σ(A∪B∪C)
有:
σ
(
A
∪
B
)
≥
σ
(
A
∪
B
∪
C
)
\sigma(A\cup B)\geq\sigma(A\cup B \cup C)
σ(A∪B)≥σ(A∪B∪C)
和
m
i
n
[
σ
(
A
)
,
σ
(
B
)
]
≥
m
i
n
[
σ
(
A
)
,
σ
(
B
)
,
σ
(
C
)
]
≥
m
i
n
[
σ
(
A
∪
B
)
,
σ
(
B
∪
C
)
,
σ
(
A
∪
C
)
]
min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)]\geq min[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)]
min[σ(A),σ(B)]≥min[σ(A),σ(B),σ(C)]≥min[σ(A∪B),σ(B∪C),σ(A∪C)]
所以无法比较 η ′ ( { A , B } ) \eta'(\set{A,B}) η′({A,B}) 和 η ′ ( { A , B , C } ) \eta'(\set{A,B,C}) η′({A,B,C}) 的大小关系
所以 η ′ \eta' η′ 是非单调的
3
先从
d
d
d 项中选
k
k
k 项来创建形成规则左部项集:
(
d
k
)
d\choose k
(kd)
再选择剩下的
d
−
k
d-k
d−k 项形成规则右部:
(
d
−
k
i
)
d-k\choose i
(id−k)
所以总方法数
R
R
R 为:
R
=
∑
k
=
1
d
(
d
k
)
∑
i
=
1
d
−
k
(
d
−
k
i
)
(
∵
∑
i
=
1
n
(
n
i
)
=
2
n
−
1
)
=
∑
k
=
1
d
(
d
k
)
(
2
d
−
k
−
1
)
=
∑
k
=
1
d
(
d
k
)
2
d
−
k
−
∑
k
=
1
d
(
d
k
)
=
∑
k
=
1
d
(
d
k
)
2
d
−
k
−
(
2
d
−
1
)
=
∑
k
=
1
d
(
d
k
)
2
d
−
k
−
2
d
+
1
\begin{aligned}R &=\sum\limits_{k=1}^{d}{d\choose k}\sum\limits_{i=1}^{d-k}{d-k\choose i}\\(∵\sum\limits_{i=1}^{n}{n\choose i}=2^n-1)&=\sum\limits_{k=1}^{d}{d\choose k}(2^{d-k}-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-\sum\limits_{k=1}^{d}{d\choose k}\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-(2^d-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1\end{aligned}
R(∵i=1∑n(in)=2n−1)=k=1∑d(kd)i=1∑d−k(id−k)=k=1∑d(kd)(2d−k−1)=k=1∑d(kd)2d−k−k=1∑d(kd)=k=1∑d(kd)2d−k−(2d−1)=k=1∑d(kd)2d−k−2d+1
又 ∵ ( 1 + x ) n = ∑ i = 1 n ( n i ) x n − i + x n (1+x)^n=\sum\limits_{i=1}^{n}{n\choose i}x^{n-i}+x^n (1+x)n=i=1∑n(in)xn−i+xn
当
x
=
2
x=2
x=2 时,有:
3
n
=
∑
i
=
1
n
(
n
i
)
2
n
−
i
+
2
n
3^n=\sum\limits_{i=1}^{n}{n\choose i}2^{n-i}+2^n
3n=i=1∑n(in)2n−i+2n
即:
∑
i
=
1
n
(
n
i
)
2
n
−
i
=
3
n
−
2
n
\sum\limits_{i=1}^{n}{n\choose i}2^{n-i}=3^n-2^n
i=1∑n(in)2n−i=3n−2n
∴ R = ∑ k = 1 d ( d k ) 2 d − k − 2 d + 1 = 3 d − 2 d − 2 d + 1 = 3 d − 2 d + 1 + 1 \begin{aligned}∴R &=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1 \\&=3^d-2^d-2^d+1 \\&=3^d-2^{d+1}+1\end{aligned} ∴R=k=1∑d(kd)2d−k−2d+1=3d−2d−2d+1=3d−2d+1+1
4
5
a
- { b } → { c } \set b\rightarrow\set c {b}→{c}
c c c | c ˉ \bar{c} cˉ | ||
---|---|---|---|
b b b | 3 | 4 | 7 |
b ˉ \bar{b} bˉ | 2 | 1 | 3 |
5 | 5 | 10 |
- { a } → { d } \set a\rightarrow\set d {a}→{d}
d d d | d ˉ \bar{d} dˉ | ||
---|---|---|---|
a a a | 4 | 1 | 5 |
a ˉ \bar{a} aˉ | 5 | 0 | 5 |
9 | 1 | 10 |
- { b } → { d } \set b\rightarrow\set d {b}→{d}
d d d | d ˉ \bar{d} dˉ | ||
---|---|---|---|
b b b | 6 | 1 | 7 |
b ˉ \bar{b} bˉ | 3 | 0 | 3 |
9 | 1 | 10 |
- { e } → { c } \set e\rightarrow\set c {e}→{c}
c c c | c ˉ \bar{c} cˉ | ||
---|---|---|---|
e e e | 2 | 4 | 6 |
e ˉ \bar{e} eˉ | 3 | 1 | 4 |
5 | 5 | 10 |
- { c } → { a } \set c\rightarrow\set a {c}→{a}
a a a | a ˉ \bar{a} aˉ | ||
---|---|---|---|
c c c | 2 | 3 | 5 |
c ˉ \bar{c} cˉ | 3 | 2 | 5 |
5 | 5 | 10 |
b
i 支持度
规则 | 支持度 | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | 0.3 0.3 0.3 | 3 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | 0.4 0.4 0.4 | 2 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | 0.6 0.6 0.6 | 1 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | 0.2 0.2 0.2 | 4 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | 0.2 0.2 0.2 | 4 |
ii 置信度
规则 | 置信度 | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | 0.429 0.429 0.429 | 3 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | 0.8 0.8 0.8 | 2 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | 0.857 0.857 0.857 | 1 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | 0.333 0.333 0.333 | 5 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | 0.4 0.4 0.4 | 4 |
iii 兴趣因子
规则 | 兴趣因子 | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | 0.214 0.214 0.214 | 3 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | 0.72 0.72 0.72 | 2 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | 0.771 0.771 0.771 | 1 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | 0.167 0.167 0.167 | 5 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | 0.2 0.2 0.2 | 4 |
iv IS度量
规则 | IS值 | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | 0.507 0.507 0.507 | 3 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | 0.596 0.596 0.596 | 2 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | 0.756 0.756 0.756 | 1 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | 0.365 0.365 0.365 | 5 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | 0.4 0.4 0.4 | 4 |
v Klosgen
规则 | Klosgen | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | − 0.039 -0.039 −0.039 | 2 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | − 0.063 -0.063 −0.063 | 4 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | − 0.033 -0.033 −0.033 | 1 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | − 0.075 -0.075 −0.075 | 5 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | − 0.045 -0.045 −0.045 | 3 |
vi 几率
规则 | 几率 | 排序 |
---|---|---|
{ b } → { c } \set b\rightarrow\set c {b}→{c} | 0.0375 0.0375 0.0375 | 2 |
{ a } → { d } \set a\rightarrow\set d {a}→{d} | 0 0 0 | 4 |
{ b } → { d } \set b\rightarrow\set d {b}→{d} | 0 0 0 | 4 |
{ e } → { c } \set e\rightarrow\set c {e}→{c} | 0.167 0.167 0.167 | 3 |
{ c } → { a } \set c\rightarrow\set a {c}→{a} | 0.444 0.444 0.444 | 1 |
6
图中,柱的纵长度即代表项集的支持度。
题号 | 频繁项集要求 | 数据集 | 原因 |
---|---|---|---|
a | 最多 | (e) | 纵长度大于等于1000的项集最多 |
b | 最少 | (d) | 纵长度大于等于1000的项集为0,即没有频繁项集 |
c | 最长 | (e) | 使用Apriori算法时,需要进行迭代次数最多 |
d | 最大支持度 | (b) | 有纵长度最长的项集(支持度约为90%) |
e | 最广泛支持度 | (e) | 有最多的不同纵长度的项集数(支持度由小于20%到大于70%) |
7
a
天气条件 = 好 | 天气条件 = 坏 | 驾驶员状况 = 饮酒 | 驾驶员状况 = 清醒 | 交通违章 = 超速 | 交通违章 = 无 | 交通违章 = 不遵守停车指示 | 交通违章 = 不遵守交通信号 | 安全带 = 无 | 安全带 = 有 | 损毁程度 = 较大 | 损毁程度 = 较小 |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 0 |
0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 |
1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 |
1 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 |
1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 |
0 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 |
1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 |
1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | 0 |
0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 |
1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
0 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 |
b
每个事务最大宽度为: 5 5 5
c
候选项集:
10
+
28
+
3
=
41
10+28+3=41
10+28+3=41
频繁项集:
8
+
10
+
0
=
18
8+10+0=18
8+10+0=18
d
天气条件 = 坏 | 驾驶员状况 = 饮酒 | 交通违章 = 是 | 安全带 = 无 | 损毁程度 = 较大 |
---|---|---|---|---|
0 | 1 | 1 | 1 | 1 |
1 | 0 | 0 | 0 | 0 |
0 | 0 | 1 | 0 | 0 |
0 | 0 | 1 | 0 | 1 |
1 | 0 | 1 | 1 | 1 |
0 | 1 | 1 | 0 | 0 |
1 | 1 | 0 | 0 | 1 |
0 | 0 | 1 | 0 | 1 |
0 | 1 | 0 | 1 | 1 |
1 | 0 | 1 | 1 | 1 |
0 | 1 | 1 | 0 | 1 |
1 | 0 | 1 | 0 | 0 |
候选项集:
5
+
10
+
0
=
15
5+10+0=15
5+10+0=15
频繁项集:
5
+
3
+
0
=
8
5+3+0=8
5+3+0=8
e
(d)相对于(c),候选和频繁项集更少。
8
a
i
2 500 − 1 2^{500}-1 2500−1
ii
2 1000 − 1 2^{1000}-1 21000−1
iii
因为这种方法产生的候选项集太多,其中很多都是无用的,会使计算浪费,降低计算的效率。
b
考虑碳酸饮料的二元化数据集:
事务 | 普通 | ¬ \neg ¬普通 | 节食 | ¬ \neg ¬节食 |
---|---|---|---|---|
1 | 1 | 0 | 0 | 1 |
2 | 0 | 1 | 1 | 0 |
3 | 1 | 0 | 0 | 1 |
4 | 0 | 1 | 1 | 0 |
5 | 0 | 1 | 0 | 1 |
6 | 1 | 0 | 0 | 1 |
7 | 0 | 1 | 1 | 0 |
σ
(
¬
普通
∪
节食
)
=
3
\sigma(\neg普通\cup节食)=3
σ(¬普通∪节食)=3
σ
(
¬
节食
∪
普通
)
=
3
\sigma(\neg节食\cup普通)=3
σ(¬节食∪普通)=3
σ
(
普通
)
=
σ
(
节食
)
=
3
\sigma(普通)=\sigma(节食)=3
σ(普通)=σ(节食)=3
σ
(
¬
普通
)
=
σ
(
¬
节食
)
=
4
\sigma(\neg普通)=\sigma(\neg节食)=4
σ(¬普通)=σ(¬节食)=4
i
¬ \neg ¬普通 → \rightarrow → 节食
s 1 = σ ( ¬ 普通 ∪ 节食 ) N = 3 7 = 42.9 % s_1=\frac{\sigma(\neg普通\cup节食)}{N}=\frac{3}{7}=42.9\% s1=Nσ(¬普通∪节食)=73=42.9%
c 1 = ¬ 普通 ∪ 节食 ¬ 普通 = 3 4 = 75 % c_1=\frac{\neg普通\cup节食}{\neg普通}=\frac{3}{4}=75\% c1=¬普通¬普通∪节食=43=75%
ii
普通 → \rightarrow → ¬ \neg ¬节食
s 2 = 3 7 = 42.9 % s_2=\frac{3}{7}=42.9\% s2=73=42.9%
c 2 = 3 3 = 100 % c_2=\frac{3}{3}=100\% c2=33=100%
iii
¬ \neg ¬节食 → \rightarrow → 普通
s 3 = s 1 = 42.9 % s_3=s_1=42.9\% s3=s1=42.9%
c 3 = 3 4 = 75 % c_3=\frac{3}{4}=75\% c3=43=75%
iv
节食 → \rightarrow → ¬ \neg ¬普通
s 4 = s 2 = 42.9 % s_4=s_2=42.9\% s4=s2=42.9%
c 4 = 3 3 = 100 % c_4=\frac{3}{3}=100\% c4=33=100%
9
a
-
Apriori
算法候选1-项集:{M},{O},{N},{K},{E},{Y},{D},{A},{U},{C},{I}
频繁1-项集:{M},{O},{K},{E},{Y}候选2-项集:{M,O},{M,K},{M,E},{M,Y},{O,K},{O,E},{O,Y},{K,E},{K,Y},{E,Y}
频繁2-项集:{M,K},{O,K},{O,E},{K,E},{K,Y}候选3-项集:{O,K,E}
频繁3-项集:{O,K,E}候选4-项集: ∅ \emptyset ∅
频繁4-项集: ∅ \emptyset ∅所以,频繁项集为:{M},{O},{K},{E},{Y},{M,K},{O,K},{O,E},{K,E},{K,Y},{O,K,E}
-
Fp-growth
算法:频繁1-项集排序:{K},{E},{M},{O},{Y}
所以将事务商品重新筛选排序:
TID 商品 T100 {K, E, M, O ,Y} T200 {K, E, O, Y} T300 {K, E, M} T400 {K, M, Y} T500 {K, E, O}
对于 Y:
{
K
E
M
O
:
1
}
\{KEMO:1\}
{KEMO:1},
{
K
E
O
:
1
}
\{KEO:1\}
{KEO:1},
{
K
M
:
1
}
\{KM:1\}
{KM:1},所以频繁项集为:
{
K
,
Y
}
\{K,Y\}
{K,Y}
对于 O:
{
K
E
M
:
1
}
\{KEM:1\}
{KEM:1},
{
K
E
:
2
}
\{KE:2\}
{KE:2},所以频繁项集为:
{
K
,
E
,
O
}
\{K,E,O\}
{K,E,O},
{
K
,
O
}
\{K,O\}
{K,O},
{
E
,
O
}
\{E,O\}
{E,O}
对于 M:
{
K
E
:
2
}
\{KE:2\}
{KE:2},
{
K
:
1
}
\{K:1\}
{K:1},所以频繁项集为:
{
K
,
M
}
\{K,M\}
{K,M}
对于 E:
{
K
:
4
}
\{K:4\}
{K:4},
{
K
E
:
2
}
\{KE:2\}
{KE:2},所以频繁项集为:
{
K
,
E
}
\{K,E\}
{K,E}
所以,频繁项集为:{K},{E},{M},{O},{Y},{K,Y},{K,E,O},{K,O},{E,O},{K,M},{K,E}
Apriori
算法在生成候选项集和计算支持度时需要多次扫描数据集,更适合相对较小的数据集。而FP-growth
算法只需要对数据集进行两次扫描,一次用于构建FP树,一次用于挖掘频繁项集,因此在大型数据集上具有较高的效率。
b
对于
K
,
E
→
O
K,E \rightarrow O
K,E→O :
s
=
60
%
s = 60\%
s=60%,
c
=
3
4
=
75
%
<
80
%
c = \frac{3}{4}=75\% \lt 80\%
c=43=75%<80%
对于
K
,
O
→
E
K,O \rightarrow E
K,O→E :
s
=
60
%
s = 60\%
s=60%,
c
=
3
3
=
100
%
>
80
%
c = \frac{3}{3}=100\% \gt 80\%
c=33=100%>80%
对于
E
,
O
→
K
E,O \rightarrow K
E,O→K :
s
=
60
%
s = 60\%
s=60%,
c
=
3
3
=
100
%
>
80
%
c = \frac{3}{3}=100\% \gt 80\%
c=33=100%>80%
所以强关联规则为: { K , O → E } \{K,O \rightarrow E\} {K,O→E} 和 { E , O → K } \{E,O \rightarrow K\} {E,O→K}
10
a
频繁3-项集:{bread, cheese, milk}
b
r
e
a
d
∧
c
h
e
e
s
e
→
m
i
l
k
bread\land cheese \rightarrow milk
bread∧cheese→milk ,
[
75
%
,
100
%
]
[75\%,100\%]
[75%,100%]
c
h
e
e
s
e
∧
m
i
l
k
→
b
r
e
a
d
cheese\land milk \rightarrow bread
cheese∧milk→bread ,
[
75
%
,
100
%
]
[75\%,100\%]
[75%,100%]
c
h
e
e
s
e
→
m
i
l
k
∧
b
r
e
a
d
cheese \rightarrow milk\land bread
cheese→milk∧bread ,
[
75
%
,
100
%
]
[75\%,100\%]
[75%,100%]
b
频繁3-项集:{Dairyland-Milk, Tasty-Pie, Wonder-Bread},{Sunset-Milk, Dairyland-Cheese, Wonder-Bread}
11
a
s = σ ( h o t d o g s ∪ h a m b u r g e r s ) N = 2000 5000 = 40 % > 25 % s=\frac{\sigma(hotdogs\cup hamburgers)}{N}=\frac{2000}{5000}=40\% >25\% s=Nσ(hotdogs∪hamburgers)=50002000=40%>25%
c = σ ( h o t d o g s ∪ h a m b u r g e r s ) σ ( h o t d o g s ) = 2000 3000 = 66.7 % > 50 % c=\frac{\sigma(hotdogs\cup hamburgers)}{\sigma(hotdogs)}=\frac{2000}{3000}=66.7\% >50\% c=σ(hotdogs)σ(hotdogs∪hamburgers)=30002000=66.7%>50%
所以关联规则 h o t hot hot d o g s → h u m b u r g e r s dogs\rightarrow humburgers dogs→humburgers 是 强规则
b
P ( h o t d o g s , h a m b u r g e r s ) = 2000 5000 = 0.4 P(hotdogs,hamburgers)=\frac{2000}{5000}=0.4 P(hotdogs,hamburgers)=50002000=0.4
P
(
h
o
t
d
o
g
s
)
=
3000
5000
=
0.6
P(hotdogs)=\frac{3000}{5000}=0.6
P(hotdogs)=50003000=0.6
P
(
h
a
m
b
u
r
g
e
r
s
)
=
2500
5000
=
0.5
P(hamburgers)=\frac{2500}{5000}=0.5
P(hamburgers)=50002500=0.5
显然:
l
i
f
t
(
h
o
t
d
o
g
s
,
h
a
m
b
u
r
g
e
r
s
)
=
P
(
h
o
t
d
o
g
s
∪
h
a
m
b
u
r
g
e
r
s
)
P
(
h
o
t
d
o
g
s
)
×
P
(
h
a
m
b
u
r
g
e
r
s
)
=
0.4
0.5
×
0.6
=
1.333
>
1
lift(hotdogs,hamburgers)=\frac{P(hotdogs\cup hamburgers)}{P(hotdogs)\times P(hamburgers)}=\frac{0.4}{0.5\times0.6}=1.333>1
lift(hotdogs,hamburgers)=P(hotdogs)×P(hamburgers)P(hotdogs∪hamburgers)=0.5×0.60.4=1.333>1
所以,买
h
o
t
hot
hot
d
o
g
s
dogs
dogs 不独立于 买
h
a
m
b
u
r
g
e
r
s
hamburgers
hamburgers,且为正相关
c
以下用 a a a 表示 h o t d o g s hotdogs hotdogs, b b b 表示 h a m b u r g e r s hamburgers hamburgers
- 全置信度: a l l _ c o n f ( a , b ) = σ ( a ∪ b ) m a x { σ ( a ) , σ ( b ) } = 0.4 0.6 = 0.667 all\_conf(a,b)=\frac{\sigma(a\cup b)}{max\{\sigma(a),\sigma(b)\}}=\frac{0.4}{0.6}=0.667 all_conf(a,b)=max{σ(a),σ(b)}σ(a∪b)=0.60.4=0.667
- 最大置信度: m a x _ c o n f ( a , b ) = m a x { P ( a ∣ b ) , P ( b ∣ a ) } = 0.4 0.5 = 0.8 max\_conf(a,b)=max\{P(a|b),P(b|a)\}=\frac{0.4}{0.5}=0.8 max_conf(a,b)=max{P(a∣b),P(b∣a)}=0.50.4=0.8
- Kulczynski: K u l c ( a , b ) = 1 2 ⋅ ( P ( a ∣ b ) + P ( b ∣ a ) ) = 1 2 × ( 0.4 0.5 + 0.4 0.6 ) = 0.733 Kulc(a,b)=\frac{1}{2}\cdot(P(a|b)+P(b|a))=\frac{1}{2}\times(\frac{0.4}{0.5}+\frac{0.4}{0.6})=0.733 Kulc(a,b)=21⋅(P(a∣b)+P(b∣a))=21×(0.50.4+0.60.4)=0.733
- 余弦度量: c o s i n e ( a , b ) = P ( a ∣ b ) × P ( b ∣ a ) = 0.4 0.5 × 0.4 0.6 = 0.730 cosine(a,b)=\sqrt{P(a|b)\times P(b|a)}=\sqrt{\frac{0.4}{0.5}\times\frac{0.4}{0.6}}=0.730 cosine(a,b)=P(a∣b)×P(b∣a)=0.50.4×0.60.4=0.730
- 提升度: l i f t ( h o t d o g s , h a m b u r g e r s ) = 1.333 lift(hotdogs,hamburgers)=1.333 lift(hotdogs,hamburgers)=1.333
- χ 2 \chi^2 χ2:缺少期望值,无法计算
以上方法均表现出二者的正相关性
12
先针对每个频繁项,构建其条件模式基,再构建其条件FP树。对每个新创建的条件FP树重复该过程,直到所得到的FP树为空或仅包含一条路径。用于存储关于频繁和非频繁模式的信息。最后,对于每个频繁项集 X X X,找到包含 X X X 的非频繁项集 Z Z Z。令 Y = Z \ X Y = Z \backslash X Y=Z\X,即 Y Y Y 包含 Z Z Z 中不在 X X X 中的元素。如果 Y Y Y 是一个频繁项集,则通过 7.3 的定义来确定 X X X 和 Y Y Y 是否呈负相关。
13
a
-
反单调性:否
反例: v = 5 v = 5 v=5, S = { 1 , 2 , 3 } S = \{1, 2, 3\} S={1,2,3}
此时, v ∉ S v \notin S v∈/S,将 5 5 5 添加进 S S S 后, v ∈ S v \in S v∈S所以,规则约束 v ∈ S v \in S v∈S 不是反单调的
-
单调性:是
令 v ∈ S v \in S v∈S
记 S ′ S' S′ 是 S S S 的一个超集
假设 v ∉ S ′ v \notin S' v∈/S′,则与 S ′ S' S′ 是 S S S 的超集 相矛盾,所以 v ∈ S ′ v \in S' v∈S′所以,规则约束 v ∈ S v \in S v∈S 是单调的
-
简洁性:是
集合 S S S 必须包含元素 v v v,即可以准确无误地产生满足该约束的所有项集记 I t e m Item Item 为所有项的集合,并且 I t e m v = I t e m \ v Item_v=Item\backslash v Itemv=Item\v
那么所有符合规则约束的项集集合可以表示为: 2 I t e m \ 2 I t e m v 2^{Item}\backslash2^{Item_v} 2Item\2Itemv,其中 2 X 2^X 2X 表示 X X X 的严格幂集所以,规则约束 v ∈ S v \in S v∈S 是简洁的
b
-
反单调性:是
令 S ⊈ V S\not\subseteq V S⊆V,则一定存在一个元素 e ∈ S e \in S e∈S 且 e ∉ V e \notin V e∈/V
记 S ′ S' S′ 是 S S S 的超集
则 e e e 满足: e ∈ S ′ e \in S' e∈S′ 且 e ∉ V e \notin V e∈/V
即说明 S ′ ⊈ V S'\not\subseteq V S′⊆V所以,规则约束 S ⊆ V S\subseteq V S⊆V 是反单调的
-
单调性:否
反例: S = 1 , 2 , 3 S={1,2,3} S=1,2,3 V = 1 , 2 , 3 , 4 , 5 V={1,2,3,4,5} V=1,2,3,4,5
此时, S ⊆ V S\subseteq V S⊆V
但将 8 8 8 添加入 S S S 后, S ⊈ V S\not\subseteq V S⊆V所以,规则约束 S ⊆ V S\subseteq V S⊆V 不是单调的
-
简洁性:是
集合 S S S 不能包含任何 V V V 中不包含的元素,即可以准确无误地产生满足该约束的所有项集记 I t e m Item Item 为所有项的集合,并且 I t e m v = I t e m \ v Item_v=Item\backslash v Itemv=Item\v
再记 V = { v 1 , v 2 , . . . , v n } V=\{v_1,v_2,...,v_n\} V={v1,v2,...,vn}
那么所有符合规则约束的项集集合可以表示为: S = S v ∪ V S=S_v\cup V S=Sv∪V,其中 S v ∈ 2 I t e m v ∪ ∅ S_v\in2^{Item_v}\cup\emptyset Sv∈2Itemv∪∅所以,规则约束 S ⊆ V S\subseteq V S⊆V 是简洁的
c
-
反单调性:否
反例: S = { 8 , 9 , 10 } S=\{8,9,10\} S={8,9,10}, v = 3 v=3 v=3
此时, m i n ( S ) ≰ v min(S) \not\leq v min(S)≤v
在将 1 1 1 添加入 S S S 后, m i n ( S ) ≤ v min(S) \leq v min(S)≤v所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)≤v 不是反单调的
-
单调性:是
令 m i n ( S ) ≤ v min(S) \leq v min(S)≤v,则 S S S 中一定存在一个元素 e e e,使得 e ≤ v e\leq v e≤v
记 S ′ S' S′ 是 S S S 的超集,即有 e ∈ S ′ e \in S' e∈S′
所以, m i n ( S ′ ) ≤ e ≤ v min(S')\leq e\leq v min(S′)≤e≤v所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)≤v 是单调的
-
简洁性:是
集合 S S S 必须至少包含一个值小于等于 v v v 的元素,即可以准确无误地产生满足该约束的所有项集记 I t e m Item Item 为所有项的集合,并且 I t e m v Item_v Itemv为所有值小于等于 v v v 的项
那么所有符合规则约束的项集集合可以表示为: 2 I t e m \ 2 I t e m v 2^{Item}\backslash2^{Item_v} 2Item\2Itemv所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)≤v 是简洁的
d
-
反单调性:是
令 r a n g e ( S ) > v range(S)>v range(S)>v,则 S S S 中一定存在两个元素 e e e 和 f f f,使得 e = m a x ( S ) e=max(S) e=max(S) 且 f = m i n ( S ) f=min(S) f=min(S),同时 e − f > v e-f>v e−f>v
记 S ′ S' S′ 是 S S S 的超集,即有 e , f ∈ S ′ e,f \in S' e,f∈S′
所以, m a x ( S ′ ) ≥ e max(S')\geq e max(S′)≥e 且 m i n ( S ′ ) ≤ f min(S')\leq f min(S′)≤f
可以得到: r a n g e ( S ′ ) = m a x ( S ′ ) − m i n ( S ′ ) ≥ e − f > v range(S')=max(S')-min(S')\geq e-f>v range(S′)=max(S′)−min(S′)≥e−f>v所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)≤v 是反单调的
-
单调性:否
反例: S = { 4 , 5 , 6 } S=\{4,5,6\} S={4,5,6}, v = 8 v=8 v=8
此时, r a n g e ( S ) ≤ v range(S)\leq v range(S)≤v
在将 13 13 13 添加入 S S S 后, r a n g e ( S ) ≰ v range(S)\not\leq v range(S)≤v所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)≤v 不是单调的
-
简洁性:否
因为规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)≤v 依赖于 S S S 中的最大最小值。例如: r a n g e ( { 4 , 5 , 6 } ) = 2 range(\{4,5,6\})=2 range({4,5,6})=2,而 r a n g e ( { 3 , 4 , 5 , 6 , 7 , 8 } ) ≠ 2 range(\{3,4,5,6,7,8\})\neq2 range({3,4,5,6,7,8})=2,但对于这种情况,是无法在计数前进行剪枝的,在挖掘过程中必须迭代地检验该规则约束所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)≤v 不是简洁的
e
-
反单调性:可转换的
令项以值递增的顺序添加到项集中。
令 v a r i a n c e ( S ) ≥ v variance(S)\geq v variance(S)≥v
记 S ′ S' S′ 是 S S S 的超集,则有 v a r i a n c e ( S ’ ) ≥ v a r i a n c e ( S ) ≥ v variance(S’)\geq variance(S)\geq v variance(S’)≥variance(S)≥v所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)≤v 是反单调的
-
单调性:可转换的
记 I t e m Item Item 为所有项的集合,计算每一项 S i S_i Si 与 所有项均值 a v g ( I t e m ) avg(Item) avg(Item) 的差 d i s i dis_i disi,依照该值将所有项降序排列。
令项以 d i s i dis_i disi 值递减的顺序添加到项集中。
令 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)≤v
记 S ′ S' S′ 是 S S S 的超集,则有 v a r i a n c e ( S ’ ) ≤ v a r i a n c e ( S ) ≤ v variance(S’)\leq variance(S)\leq v variance(S’)≤variance(S)≤v所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)≤v 是反单调的
-
简洁性:否
因为规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)≤v 依赖于 S S S 中的具体项。例如: r a n g e ( { 8 , 56 } ) = 33.94 ≰ 20 = v range(\{8,56\})=33.94\not\leq20=v range({8,56})=33.94≤20=v,而 r a n g e ( { 3 , 4 , 5 , 6 , 7 , 8 , 13 , 21 , 37 , 49 , 56 } ) = 19.34 ≤ 20 = v range(\{3,4,5,6,7,8,13,21,37,49,56\})=19.34\leq20=v range({3,4,5,6,7,8,13,21,37,49,56})=19.34≤20=v,但对于这种情况,是无法在计数前进行剪枝的,在挖掘过程中必须迭代地检验该规则约束所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)≤v 不是简洁的
14
是有效的距离度量
有以下特性:
(a)
P
a
t
_
D
i
s
t
(
P
1
,
P
2
)
>
0
,
∀
P
1
≠
P
2
Pat\_Dist(P_1,P_2) > 0, \forall P_1\neq P_2
Pat_Dist(P1,P2)>0,∀P1=P2
(b)
P
a
t
_
D
i
s
t
(
P
1
,
P
2
)
=
0
,
∀
P
1
=
P
2
Pat\_Dist(P_1,P_2)=0,\forall P_1=P_2
Pat_Dist(P1,P2)=0,∀P1=P2
(c)
P
a
t
_
D
i
s
t
(
P
1
,
P
2
)
=
P
a
t
_
D
i
s
t
(
P
2
,
P
1
)
Pat\_Dist(P_1,P_2)=Pat\_Dist(P_2,P_1)
Pat_Dist(P1,P2)=Pat_Dist(P2,P1)
(d)
P
a
t
_
D
i
s
t
(
P
1
,
P
2
)
+
P
a
t
_
D
i
s
t
(
P
2
,
P
3
)
>
P
a
t
_
D
i
s
t
(
P
1
,
P
3
)
,
∀
P
1
,
P
2
,
P
3
Pat\_Dist(P_1,P_2)+Pat\_Dist(P_2,P_3)>Pat\_Dist(P_1,P_3),\forall P_1,P_2,P_3
Pat_Dist(P1,P2)+Pat_Dist(P2,P3)>Pat_Dist(P1,P3),∀P1,P2,P3
因为 ( T ( P 1 ) ∩ T ( P 2 ) ) ∪ ( T ( P 1 ) ∩ T ( P 3 ) ) ⊆ T ( P 1 ) (T(P_1)\cap T(P_2))\cup(T(P_1)\cap T(P_3)) \subseteq T(P_1) (T(P1)∩T(P2))∪(T(P1)∩T(P3))⊆T(P1), 所以有:
∣ T ( P 1 ) ∩ T ( P 2 ) ∣ + ∣ T ( P 1 ) ∩ T ( P 3 ) ∣ − ∣ T ( P 1 ) ∩ T ( P 2 ) ∩ T ( P 3 ) ∣ ≤ ∣ T ( P 1 ) ∣ |T(P_1)\cap T(P_2)|+|T(P_1)\cap T(P_3)|-|T(P_1)\cap T(P_2)\cap T(P_3)|\leq|T(P_1)| ∣T(P1)∩T(P2)∣+∣T(P1)∩T(P3)∣−∣T(P1)∩T(P2)∩T(P3)∣≤∣T(P1)∣
⟹ b 1 + c 1 − d 1 ≤ a \begin{align}\Longrightarrow b_1+c_1-d_1\leq a\end{align} ⟹b1+c1−d1≤a
将变量代入得
P a t _ D i s t ( P 1 , P 2 ) + P a t _ D i s t ( P 2 , P 3 ) ≥ P a t _ D i s t ( P 1 , P 3 ) Pat\_Dist(P_1,P_2)+ Pat\_Dist(P_2,P_3) \geq Pat\_Dist(P_1,P_3) Pat_Dist(P1,P2)+Pat_Dist(P2,P3)≥Pat_Dist(P1,P3)
⟺ b 1 a + b 2 + c 1 a + c 2 ≤ 1 + d 1 + d 2 b 1 + b 2 + c 1 + c 2 − d 1 − d 2 \Longleftrightarrow \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \leq 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2} ⟺a+b2b1+a+c2c1≤1+b1+b2+c1+c2−d1−d2d1+d2
由不等式(1),有:
1 + d 1 + d 2 b 1 + b 2 + c 1 + c 2 − d 1 − d 2 ( ∵ d 2 ≥ 0 ) ≥ 1 + d 1 b 1 + b 2 + c 1 + c 2 − d 1 ( 由式 ( 1 ) ) ≥ 1 + d 1 a + b 2 + c 2 = a + b 2 + c 2 + d 1 a + b 2 + c 2 ( 由式 ( 1 ) ) ≥ b 1 + b 2 + c 1 + c 2 a + b 2 + c 2 = b 1 + c 2 a + b 2 + c 2 + b 2 + c 1 a + b 2 + c 2 ≥ b 1 a + b 2 + c 1 a + c 2 \begin{aligned} & 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2} \\ (∵d_2\geq 0)& \geq 1+\frac{d_1}{b_1+b_2+c_1+c_2-d_1} \\ (由式(1))& \geq 1+\frac{d_1}{a+b_2+c_2} \\ & = \frac{a+b_2+c_2+d_1}{a+b_2+c_2} \\ (由式(1))&\geq \frac{b_1+b_2+c_1+c_2}{a+b_2+c_2} \\ & = \frac{b_1+c_2}{a+b_2+c_2}+\frac{b_2+c_1}{a+b_2+c_2} \\ &\geq \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \\ \end{aligned} (∵d2≥0)(由式(1))(由式(1))1+b1+b2+c1+c2−d1−d2d1+d2≥1+b1+b2+c1+c2−d1d1≥1+a+b2+c2d1=a+b2+c2a+b2+c2+d1≥a+b2+c2b1+b2+c1+c2=a+b2+c2b1+c2+a+b2+c2b2+c1≥a+b2b1+a+c2c1
所以,特性(d)证明是正确的
这个距离度量可以扩展到一般的频繁模式,是有效的距离度量。