DM Hw3

1

a

c ( ∅ → A ) = σ ( ∅ ∪ A ) σ ( ∅ ) = σ ( A ) N = s ( ∅ → A ) c_{(\emptyset\rightarrow A)}=\frac{\sigma(\emptyset\cup A)}{\sigma(\emptyset)}=\frac{\sigma(A)}{N}=s_{(\emptyset\rightarrow A)} c(A)=σ()σ(A)=Nσ(A)=s(A)

c ( A → ∅ ) = σ ( A ∪ ∅ ) σ ( A ) = 100 % c_{(A\rightarrow\emptyset)}=\frac{\sigma(A\cup\emptyset)}{\sigma(A)}=100\% c(A)=σ(A)σ(A)=100%


b

c 1 = σ ( p ∪ q ) σ ( p ) c_1=\frac{\sigma(p\cup q)}{\sigma(p)} c1=σ(p)σ(pq)
c 2 = σ ( p ∪ q ∪ r ) σ ( p ) c_2=\frac{\sigma(p\cup q\cup r)}{\sigma(p)} c2=σ(p)σ(pqr)
c 3 = σ ( p ∪ q ∪ r ) σ ( p ∪ q ) c_3=\frac{\sigma(p\cup q\cup r)}{\sigma(p\cup q)} c3=σ(pq)σ(pqr)

易知: σ ( p ∪ q ∪ r ) ≤ σ ( p ∪ q ) ≤ σ ( p ) \sigma(p\cup q\cup r)\leq\sigma(p\cup q)\leq\sigma(p) σ(pqr)σ(pq)σ(p)
所以有: c 2 ≤ c 1 c_2\leq c_1 c2c1 c 2 ≤ c 3 c_2\leq c_3 c2c3
即:规则 c 2 c_2 c2 置信度最低


c

因为 c 1 , c 2 , c 3 c_1,c_2,c_3 c1,c2,c3 支持度相同
所以有: σ ( p ∪ q ) = σ ( p ∪ q ) = σ ( p ∪ q ∪ r ) \sigma(p\cup q)=\sigma(p\cup q)=\sigma(p\cup q\cup r) σ(pq)=σ(pq)=σ(pqr)
即: σ ( p ∪ q ∪ r ) = σ ( p ∪ q ) ≤ σ ( p ) \sigma(p\cup q\cup r)=\sigma(p\cup q)\leq\sigma(p) σ(pqr)=σ(pq)σ(p)
所以有: c 1 = c 2 ≤ c 3 c_1=c_2\leq c_3 c1=c2c3
即:规则 c 3 c_3 c3 置信度最高


d

可能

例如:
σ ( A ) = 50 % \sigma(A)=50\% σ(A)=50%
σ ( B ) = 80 % \sigma(B)=80\% σ(B)=80%
σ ( C ) = 50 % \sigma(C)=50\% σ(C)=50%
σ ( A ∪ B ) = 50 % \sigma(A\cup B)=50\% σ(AB)=50%
σ ( B ∪ C ) = 50 % \sigma(B\cup C)=50\% σ(BC)=50%
σ ( A ∪ C ) = 20 % \sigma(A\cup C)=20\% σ(AC)=20%
m i n c o n f = 50 % minconf=50\% minconf=50%

则有:
c ( A → B ) = σ ( A ∪ B ) σ ( A ) = 100 % c_{(A\rightarrow B)}=\frac{\sigma(A\cup B)}{\sigma(A)}=100\% c(AB)=σ(A)σ(AB)=100%
c ( B → C ) = σ ( B ∪ C ) σ ( B ) = 62.5 % c_{(B\rightarrow C)}=\frac{\sigma(B\cup C)}{\sigma(B)}=62.5\% c(BC)=σ(B)σ(BC)=62.5%
c ( A → C ) = σ ( A ∪ C ) σ ( A ) = 40 % c_{(A\rightarrow C)}=\frac{\sigma(A\cup C)}{\sigma(A)}=40\% c(AC)=σ(A)σ(AC)=40%

此时满足:
c ( A → B ) ≥ m i n c o n f c_{(A\rightarrow B)}\geq minconf c(AB)minconf
c ( B → C ) ≥ m i n c o n f c_{(B\rightarrow C)}\geq minconf c(BC)minconf
而:
c ( A → C ) ≤ m i n c o n f c_{(A\rightarrow C)}\leq minconf c(AC)minconf


2

a

ζ \zeta ζ 是反单调的

k = 2 和 3 k=2和3 k=23 的情况:

ζ ( {   A , B   } ) = m i n [ c ( A → B ) , c ( B → A ) ] = m i n [ σ ( A ∪ B ) σ ( A ) , σ ( A ∪ B ) σ ( B ) ] = σ ( A ∪ B ) m a x [ σ ( A ) , σ ( B ) ] \begin {aligned}\zeta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned} ζ({A,B})=min[c(AB),c(BA)]=min[σ(A)σ(AB),σ(B)σ(AB)]=max[σ(A),σ(B)]σ(AB)

ζ ( {   A , B , C   } ) = m i n [ c ( A → B C ) , c ( B → A C ) , c ( C → A B ) ] = m i n [ σ ( A ∪ B ∪ C ) σ ( A ) , σ ( A ∪ B ∪ C ) σ ( B ) , σ ( A ∪ B ∪ C ) σ ( C ) ] = σ ( A ∪ B ∪ C ) m a x [ σ ( A ) , σ ( B ) , σ ( C ) ] \begin {aligned}\zeta(\set{A,B,C})&=min[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A)},\frac{\sigma(A\cup B \cup C)}{\sigma(B)},\frac{\sigma(A\cup B \cup C)}{\sigma(C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned} ζ({A,B,C})=min[c(ABC),c(BAC),c(CAB)]=min[σ(A)σ(ABC),σ(B)σ(ABC),σ(C)σ(ABC)]=max[σ(A),σ(B),σ(C)]σ(ABC)

因为有 σ ( A ∪ B ) ≥ σ ( A ∪ B ∪ C ) \sigma(A\cup B)\geq\sigma(A\cup B \cup C) σ(AB)σ(ABC),且 m a x [ σ ( A ) , σ ( B ) ] ≤ m a x [ σ ( A ) , σ ( B ) , σ ( C ) ] max[\sigma(A),\sigma(B)]\leq max[\sigma(A),\sigma(B),\sigma(C)] max[σ(A),σ(B)]max[σ(A),σ(B),σ(C)]

所以可以得到:

{   A , B   } ⊂ {   A , B , C   } \set{A,B}\subset\set{A,B,C} {A,B}{A,B,C} 时,有 ζ ( {   A , B   } ) ≥ ζ ( {   A , B , C   } ) \zeta(\set{A,B})\geq\zeta(\set{A,B,C}) ζ({A,B})ζ({A,B,C})

所以 ζ \zeta ζ 是反单调的


b

η \eta η 是非单调的

同样取 k = 2 和 3 k=2和3 k=23

η ( {   A , B   } ) = m i n [ c ( A → B ) , c ( B → A ) ] = m i n [ σ ( A ∪ B ) σ ( A ) , σ ( A ∪ B ) σ ( B ) ] = σ ( A ∪ B ) m a x [ σ ( A ) , σ ( B ) ] \begin {aligned}\eta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned} η({A,B})=min[c(AB),c(BA)]=min[σ(A)σ(AB),σ(B)σ(AB)]=max[σ(A),σ(B)]σ(AB)

η ( {   A , B , C   } ) = m i n [ c ( A B → C ) , c ( B C → A ) , c ( A C → B ) ] = m i n [ σ ( A ∪ B ∪ C ) σ ( A ∪ B ) , σ ( A ∪ B ∪ C ) σ ( B ∪ C ) , σ ( A ∪ B ∪ C ) σ ( A ∪ C ) ] = σ ( A ∪ B ∪ C ) m a x [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( ( A ∪ C ) ] \begin {aligned}\eta(\set{A,B,C})&=min[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup B)},\frac{\sigma(A\cup B \cup C)}{\sigma(B\cup C)},\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned} η({A,B,C})=min[c(ABC),c(BCA),c(ACB)]=min[σ(AB)σ(ABC),σ(BC)σ(ABC),σ(AC)σ(ABC)]=max[σ(AB),σ(BC),σ((AC)]σ(ABC)

有: σ ( A ∪ B ) ≥ σ ( A ∪ B ∪ C ) \sigma(A\cup B)\geq\sigma(A\cup B \cup C) σ(AB)σ(ABC)
m a x [ σ ( A ) , σ ( B ) ] ≥ m a x [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( A ∪ C ) ] max[\sigma(A),\sigma(B)]\geq max[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)] max[σ(A),σ(B)]max[σ(AB),σ(BC),σ(AC)]
(因为 m i n [ σ ( A ) , σ ( B ) ] ≥ σ ( A ∪ B ) min[\sigma(A),\sigma(B)]\geq \sigma(A\cup B) min[σ(A),σ(B)]σ(AB))

所以无法比较 η ( {   A , B   } ) \eta(\set{A,B}) η({A,B}) η ( {   A , B , C   } ) \eta(\set{A,B,C}) η({A,B,C}) 的大小关系

所以 η \eta η 是非单调的


c - (a)

ζ ′ \zeta' ζ 是非单调的

ζ ′ ( {   A , B   } ) = m a x [ c ( A → B ) , c ( B → A ) ] = σ ( A ∪ B ) m i n [ σ ( A ) , σ ( B ) ] \begin {aligned}\zeta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned} ζ({A,B})=max[c(AB),c(BA)]=min[σ(A),σ(B)]σ(AB)

ζ ′ ( {   A , B , C   } ) = m a x [ c ( A → B C ) , c ( B → A C ) , c ( C → A B ) = σ ( A ∪ B ∪ C ) m i n [ σ ( A ) , σ ( B ) , σ ( C ) ] \begin {aligned}\zeta'(\set{A,B,C})&=max[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned} ζ({A,B,C})=max[c(ABC),c(BAC),c(CAB)=min[σ(A),σ(B),σ(C)]σ(ABC)

有: σ ( A ∪ B ) ≥ σ ( A ∪ B ∪ C ) \sigma(A\cup B)\geq\sigma(A\cup B \cup C) σ(AB)σ(ABC)
m i n [ σ ( A ) , σ ( B ) ] ≥ m i n [ σ ( A ) , σ ( B ) , σ ( C ) ] min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)] min[σ(A),σ(B)]min[σ(A),σ(B),σ(C)]

所以无法比较 ζ ′ ( {   A , B   } ) \zeta'(\set{A,B}) ζ({A,B}) ζ ′ ( {   A , B , C   } ) \zeta'(\set{A,B,C}) ζ({A,B,C}) 的大小关系

所以 ζ ′ \zeta' ζ 是非单调的


c - (b)

η ′ \eta' η 是非单调的

η ′ ( {   A , B   } ) = m a x [ c ( A → B ) , c ( B → A ) ] = σ ( A ∪ B ) m i n [ σ ( A ) , σ ( B ) ] \begin {aligned}\eta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned} η({A,B})=max[c(AB),c(BA)]=min[σ(A),σ(B)]σ(AB)

η ′ ( {   A , B , C   } ) = m a x [ c ( A B → C ) , c ( B C → A ) , c ( A C → B ) ] = σ ( A ∪ B ∪ C ) m i n [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( ( A ∪ C ) ] \begin {aligned}\eta'(\set{A,B,C})&=max[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned} η({A,B,C})=max[c(ABC),c(BCA),c(ACB)]=min[σ(AB),σ(BC),σ((AC)]σ(ABC)

有: σ ( A ∪ B ) ≥ σ ( A ∪ B ∪ C ) \sigma(A\cup B)\geq\sigma(A\cup B \cup C) σ(AB)σ(ABC)
m i n [ σ ( A ) , σ ( B ) ] ≥ m i n [ σ ( A ) , σ ( B ) , σ ( C ) ] ≥ m i n [ σ ( A ∪ B ) , σ ( B ∪ C ) , σ ( A ∪ C ) ] min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)]\geq min[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)] min[σ(A),σ(B)]min[σ(A),σ(B),σ(C)]min[σ(AB),σ(BC),σ(AC)]

所以无法比较 η ′ ( {   A , B   } ) \eta'(\set{A,B}) η({A,B}) η ′ ( {   A , B , C   } ) \eta'(\set{A,B,C}) η({A,B,C}) 的大小关系

所以 η ′ \eta' η 是非单调的


3

先从 d d d 项中选 k k k 项来创建形成规则左部项集: ( d k ) d\choose k (kd)
再选择剩下的 d − k d-k dk 项形成规则右部: ( d − k i ) d-k\choose i (idk)
所以总方法数 R R R 为:
R = ∑ k = 1 d ( d k ) ∑ i = 1 d − k ( d − k i ) ( ∵ ∑ i = 1 n ( n i ) = 2 n − 1 ) = ∑ k = 1 d ( d k ) ( 2 d − k − 1 ) = ∑ k = 1 d ( d k ) 2 d − k − ∑ k = 1 d ( d k ) = ∑ k = 1 d ( d k ) 2 d − k − ( 2 d − 1 ) = ∑ k = 1 d ( d k ) 2 d − k − 2 d + 1 \begin{aligned}R &=\sum\limits_{k=1}^{d}{d\choose k}\sum\limits_{i=1}^{d-k}{d-k\choose i}\\(∵\sum\limits_{i=1}^{n}{n\choose i}=2^n-1)&=\sum\limits_{k=1}^{d}{d\choose k}(2^{d-k}-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-\sum\limits_{k=1}^{d}{d\choose k}\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-(2^d-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1\end{aligned} R(i=1n(in)=2n1)=k=1d(kd)i=1dk(idk)=k=1d(kd)(2dk1)=k=1d(kd)2dkk=1d(kd)=k=1d(kd)2dk(2d1)=k=1d(kd)2dk2d+1

又 ∵ ( 1 + x ) n = ∑ i = 1 n ( n i ) x n − i + x n (1+x)^n=\sum\limits_{i=1}^{n}{n\choose i}x^{n-i}+x^n (1+x)n=i=1n(in)xni+xn

x = 2 x=2 x=2 时,有:
3 n = ∑ i = 1 n ( n i ) 2 n − i + 2 n 3^n=\sum\limits_{i=1}^{n}{n\choose i}2^{n-i}+2^n 3n=i=1n(in)2ni+2n
即:
∑ i = 1 n ( n i ) 2 n − i = 3 n − 2 n \sum\limits_{i=1}^{n}{n\choose i}2^{n-i}=3^n-2^n i=1n(in)2ni=3n2n

∴ R = ∑ k = 1 d ( d k ) 2 d − k − 2 d + 1 = 3 d − 2 d − 2 d + 1 = 3 d − 2 d + 1 + 1 \begin{aligned}∴R &=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1 \\&=3^d-2^d-2^d+1 \\&=3^d-2^{d+1}+1\end{aligned} R=k=1d(kd)2dk2d+1=3d2d2d+1=3d2d+1+1


4

在这里插入图片描述


5

a

  • {   b   } → {   c   } \set b\rightarrow\set c {b}{c}
c c c c ˉ \bar{c} cˉ
b b b347
b ˉ \bar{b} bˉ213
5510
  • {   a   } → {   d   } \set a\rightarrow\set d {a}{d}
d d d d ˉ \bar{d} dˉ
a a a415
a ˉ \bar{a} aˉ505
9110
  • {   b   } → {   d   } \set b\rightarrow\set d {b}{d}
d d d d ˉ \bar{d} dˉ
b b b617
b ˉ \bar{b} bˉ303
9110
  • {   e   } → {   c   } \set e\rightarrow\set c {e}{c}
c c c c ˉ \bar{c} cˉ
e e e246
e ˉ \bar{e} eˉ314
5510
  • {   c   } → {   a   } \set c\rightarrow\set a {c}{a}
a a a a ˉ \bar{a} aˉ
c c c235
c ˉ \bar{c} cˉ325
5510

b

i 支持度

规则支持度排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} 0.3 0.3 0.33
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} 0.4 0.4 0.42
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} 0.6 0.6 0.61
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} 0.2 0.2 0.24
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} 0.2 0.2 0.24

ii 置信度

规则置信度排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} 0.429 0.429 0.4293
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} 0.8 0.8 0.82
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} 0.857 0.857 0.8571
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} 0.333 0.333 0.3335
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} 0.4 0.4 0.44

iii 兴趣因子

规则兴趣因子排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} 0.214 0.214 0.2143
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} 0.72 0.72 0.722
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} 0.771 0.771 0.7711
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} 0.167 0.167 0.1675
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} 0.2 0.2 0.24

iv IS度量

规则IS值排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} 0.507 0.507 0.5073
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} 0.596 0.596 0.5962
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} 0.756 0.756 0.7561
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} 0.365 0.365 0.3655
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} 0.4 0.4 0.44

v Klosgen

规则Klosgen排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} − 0.039 -0.039 0.0392
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} − 0.063 -0.063 0.0634
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} − 0.033 -0.033 0.0331
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} − 0.075 -0.075 0.0755
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} − 0.045 -0.045 0.0453

vi 几率

规则几率排序
{   b   } → {   c   } \set b\rightarrow\set c {b}{c} 0.0375 0.0375 0.03752
{   a   } → {   d   } \set a\rightarrow\set d {a}{d} 0 0 04
{   b   } → {   d   } \set b\rightarrow\set d {b}{d} 0 0 04
{   e   } → {   c   } \set e\rightarrow\set c {e}{c} 0.167 0.167 0.1673
{   c   } → {   a   } \set c\rightarrow\set a {c}{a} 0.444 0.444 0.4441

6

图中,柱的纵长度即代表项集的支持度。

题号频繁项集要求数据集原因
a最多(e)纵长度大于等于1000的项集最多
b最少(d)纵长度大于等于1000的项集为0,即没有频繁项集
c最长(e)使用Apriori算法时,需要进行迭代次数最多
d最大支持度(b)有纵长度最长的项集(支持度约为90%)
e最广泛支持度(e)有最多的不同纵长度的项集数(支持度由小于20%到大于70%)

7

a

天气条件 = 好天气条件 = 坏驾驶员状况 = 饮酒驾驶员状况 = 清醒交通违章 = 超速交通违章 = 无交通违章 = 不遵守停车指示交通违章 = 不遵守交通信号安全带 = 无安全带 = 有损毁程度 = 较大损毁程度 = 较小
101010001010
010101000101
100100100101
100110000110
010100011010
101000100101
011001000110
100100010110
101001001010
010100011010
101010000110
010100100101

b

每个事务最大宽度为: 5 5 5


c

候选项集: 10 + 28 + 3 = 41 10+28+3=41 10+28+3=41
频繁项集: 8 + 10 + 0 = 18 8+10+0=18 8+10+0=18


d

天气条件 = 坏驾驶员状况 = 饮酒交通违章 = 是安全带 = 无损毁程度 = 较大
01111
10000
00100
00101
10111
01100
11001
00101
01011
10111
01101
10100

候选项集: 5 + 10 + 0 = 15 5+10+0=15 5+10+0=15
频繁项集: 5 + 3 + 0 = 8 5+3+0=8 5+3+0=8


e

(d)相对于(c),候选和频繁项集更少。


8

a

i

2 500 − 1 2^{500}-1 25001


ii

2 1000 − 1 2^{1000}-1 210001


iii

因为这种方法产生的候选项集太多,其中很多都是无用的,会使计算浪费,降低计算的效率。


b

考虑碳酸饮料的二元化数据集:

事务普通 ¬ \neg ¬普通节食 ¬ \neg ¬节食
11001
20110
31001
40110
50101
61001
70110

σ ( ¬ 普通 ∪ 节食 ) = 3 \sigma(\neg普通\cup节食)=3 σ(¬普通节食)=3
σ ( ¬ 节食 ∪ 普通 ) = 3 \sigma(\neg节食\cup普通)=3 σ(¬节食普通)=3
σ ( 普通 ) = σ ( 节食 ) = 3 \sigma(普通)=\sigma(节食)=3 σ(普通)=σ(节食)=3
σ ( ¬ 普通 ) = σ ( ¬ 节食 ) = 4 \sigma(\neg普通)=\sigma(\neg节食)=4 σ(¬普通)=σ(¬节食)=4

i

¬ \neg ¬普通 → \rightarrow 节食

s 1 = σ ( ¬ 普通 ∪ 节食 ) N = 3 7 = 42.9 % s_1=\frac{\sigma(\neg普通\cup节食)}{N}=\frac{3}{7}=42.9\% s1=Nσ(¬普通节食)=73=42.9%

c 1 = ¬ 普通 ∪ 节食 ¬ 普通 = 3 4 = 75 % c_1=\frac{\neg普通\cup节食}{\neg普通}=\frac{3}{4}=75\% c1=¬普通¬普通节食=43=75%


ii

普通 → \rightarrow ¬ \neg ¬节食

s 2 = 3 7 = 42.9 % s_2=\frac{3}{7}=42.9\% s2=73=42.9%

c 2 = 3 3 = 100 % c_2=\frac{3}{3}=100\% c2=33=100%


iii

¬ \neg ¬节食 → \rightarrow 普通

s 3 = s 1 = 42.9 % s_3=s_1=42.9\% s3=s1=42.9%

c 3 = 3 4 = 75 % c_3=\frac{3}{4}=75\% c3=43=75%


iv

节食 → \rightarrow ¬ \neg ¬普通

s 4 = s 2 = 42.9 % s_4=s_2=42.9\% s4=s2=42.9%

c 4 = 3 3 = 100 % c_4=\frac{3}{3}=100\% c4=33=100%


9

a

  • Apriori算法

    候选1-项集:{M},{O},{N},{K},{E},{Y},{D},{A},{U},{C},{I}
    频繁1-项集:{M},{O},{K},{E},{Y}

    候选2-项集:{M,O},{M,K},{M,E},{M,Y},{O,K},{O,E},{O,Y},{K,E},{K,Y},{E,Y}
    频繁2-项集:{M,K},{O,K},{O,E},{K,E},{K,Y}

    候选3-项集:{O,K,E}
    频繁3-项集:{O,K,E}

    候选4-项集: ∅ \emptyset
    频繁4-项集: ∅ \emptyset

    所以,频繁项集为:{M},{O},{K},{E},{Y},{M,K},{O,K},{O,E},{K,E},{K,Y},{O,K,E}

  • Fp-growth 算法:

    频繁1-项集排序:{K},{E},{M},{O},{Y}

    所以将事务商品重新筛选排序:

    TID商品
    T100{K, E, M, O ,Y}
    T200{K, E, O, Y}
    T300{K, E, M}
    T400{K, M, Y}
    T500{K, E, O}
null
K:5
E:4
M:2
M:1
O:1
O:2
Y:1
Y:1
Y:1

对于 Y: { K E M O : 1 } \{KEMO:1\} {KEMO1} { K E O : 1 } \{KEO:1\} {KEO1} { K M : 1 } \{KM:1\} {KM:1},所以频繁项集为: { K , Y } \{K,Y\} {K,Y}
对于 O: { K E M : 1 } \{KEM:1\} {KEM1} { K E : 2 } \{KE:2\} {KE2},所以频繁项集为: { K , E , O } \{K,E,O\} {K,E,O} { K , O } \{K,O\} {K,O} { E , O } \{E,O\} {E,O}
对于 M: { K E : 2 } \{KE:2\} {KE2} { K : 1 } \{K:1\} {K1},所以频繁项集为: { K , M } \{K,M\} {K,M}
对于 E: { K : 4 } \{K:4\} {K4} { K E : 2 } \{KE:2\} {KE2},所以频繁项集为: { K , E } \{K,E\} {K,E}

所以,频繁项集为:{K},{E},{M},{O},{Y},{K,Y},{K,E,O},{K,O},{E,O},{K,M},{K,E}

Apriori算法在生成候选项集和计算支持度时需要多次扫描数据集,更适合相对较小的数据集。而FP-growth算法只需要对数据集进行两次扫描,一次用于构建FP树,一次用于挖掘频繁项集,因此在大型数据集上具有较高的效率。


b

对于 K , E → O K,E \rightarrow O K,EO s = 60 % s = 60\% s=60% c = 3 4 = 75 % < 80 % c = \frac{3}{4}=75\% \lt 80\% c=43=75%<80%
对于 K , O → E K,O \rightarrow E K,OE s = 60 % s = 60\% s=60% c = 3 3 = 100 % > 80 % c = \frac{3}{3}=100\% \gt 80\% c=33=100%>80%
对于 E , O → K E,O \rightarrow K E,OK s = 60 % s = 60\% s=60% c = 3 3 = 100 % > 80 % c = \frac{3}{3}=100\% \gt 80\% c=33=100%>80%

所以强关联规则为: { K , O → E } \{K,O \rightarrow E\} {K,OE} { E , O → K } \{E,O \rightarrow K\} {E,OK}


10

a

频繁3-项集:{bread, cheese, milk}

b r e a d ∧ c h e e s e → m i l k bread\land cheese \rightarrow milk breadcheesemilk , [ 75 % , 100 % ] [75\%,100\%] [75%,100%]
c h e e s e ∧ m i l k → b r e a d cheese\land milk \rightarrow bread cheesemilkbread , [ 75 % , 100 % ] [75\%,100\%] [75%,100%]
c h e e s e → m i l k ∧ b r e a d cheese \rightarrow milk\land bread cheesemilkbread , [ 75 % , 100 % ] [75\%,100\%] [75%,100%]


b

频繁3-项集:{Dairyland-Milk, Tasty-Pie, Wonder-Bread},{Sunset-Milk, Dairyland-Cheese, Wonder-Bread}


11

a

s = σ ( h o t d o g s ∪ h a m b u r g e r s ) N = 2000 5000 = 40 % > 25 % s=\frac{\sigma(hotdogs\cup hamburgers)}{N}=\frac{2000}{5000}=40\% >25\% s=Nσ(hotdogshamburgers)=50002000=40%>25%

c = σ ( h o t d o g s ∪ h a m b u r g e r s ) σ ( h o t d o g s ) = 2000 3000 = 66.7 % > 50 % c=\frac{\sigma(hotdogs\cup hamburgers)}{\sigma(hotdogs)}=\frac{2000}{3000}=66.7\% >50\% c=σ(hotdogs)σ(hotdogshamburgers)=30002000=66.7%>50%

所以关联规则 h o t hot hot d o g s → h u m b u r g e r s dogs\rightarrow humburgers dogshumburgers强规则


b

P ( h o t d o g s , h a m b u r g e r s ) = 2000 5000 = 0.4 P(hotdogs,hamburgers)=\frac{2000}{5000}=0.4 P(hotdogs,hamburgers)=50002000=0.4

P ( h o t d o g s ) = 3000 5000 = 0.6 P(hotdogs)=\frac{3000}{5000}=0.6 P(hotdogs)=50003000=0.6
P ( h a m b u r g e r s ) = 2500 5000 = 0.5 P(hamburgers)=\frac{2500}{5000}=0.5 P(hamburgers)=50002500=0.5

显然: l i f t ( h o t d o g s , h a m b u r g e r s ) = P ( h o t d o g s ∪ h a m b u r g e r s ) P ( h o t d o g s ) × P ( h a m b u r g e r s ) = 0.4 0.5 × 0.6 = 1.333 > 1 lift(hotdogs,hamburgers)=\frac{P(hotdogs\cup hamburgers)}{P(hotdogs)\times P(hamburgers)}=\frac{0.4}{0.5\times0.6}=1.333>1 lift(hotdogs,hamburgers)=P(hotdogs)×P(hamburgers)P(hotdogshamburgers)=0.5×0.60.4=1.333>1
所以,买 h o t hot hot d o g s dogs dogs 不独立于 买 h a m b u r g e r s hamburgers hamburgers,且为正相关


c

以下用 a a a 表示 h o t d o g s hotdogs hotdogs b b b 表示 h a m b u r g e r s hamburgers hamburgers

  • 全置信度: a l l _ c o n f ( a , b ) = σ ( a ∪ b ) m a x { σ ( a ) , σ ( b ) } = 0.4 0.6 = 0.667 all\_conf(a,b)=\frac{\sigma(a\cup b)}{max\{\sigma(a),\sigma(b)\}}=\frac{0.4}{0.6}=0.667 all_conf(a,b)=max{σ(a),σ(b)}σ(ab)=0.60.4=0.667
  • 最大置信度: m a x _ c o n f ( a , b ) = m a x { P ( a ∣ b ) , P ( b ∣ a ) } = 0.4 0.5 = 0.8 max\_conf(a,b)=max\{P(a|b),P(b|a)\}=\frac{0.4}{0.5}=0.8 max_conf(a,b)=max{P(ab),P(ba)}=0.50.4=0.8
  • Kulczynski: K u l c ( a , b ) = 1 2 ⋅ ( P ( a ∣ b ) + P ( b ∣ a ) ) = 1 2 × ( 0.4 0.5 + 0.4 0.6 ) = 0.733 Kulc(a,b)=\frac{1}{2}\cdot(P(a|b)+P(b|a))=\frac{1}{2}\times(\frac{0.4}{0.5}+\frac{0.4}{0.6})=0.733 Kulc(a,b)=21(P(ab)+P(ba))=21×(0.50.4+0.60.4)=0.733
  • 余弦度量: c o s i n e ( a , b ) = P ( a ∣ b ) × P ( b ∣ a ) = 0.4 0.5 × 0.4 0.6 = 0.730 cosine(a,b)=\sqrt{P(a|b)\times P(b|a)}=\sqrt{\frac{0.4}{0.5}\times\frac{0.4}{0.6}}=0.730 cosine(a,b)=P(ab)×P(ba) =0.50.4×0.60.4 =0.730
  • 提升度: l i f t ( h o t d o g s , h a m b u r g e r s ) = 1.333 lift(hotdogs,hamburgers)=1.333 lift(hotdogs,hamburgers)=1.333
  • χ 2 \chi^2 χ2:缺少期望值,无法计算

以上方法均表现出二者的正相关性


12

先针对每个频繁项,构建其条件模式基,再构建其条件FP树。对每个新创建的条件FP树重复该过程,直到所得到的FP树为空或仅包含一条路径。用于存储关于频繁和非频繁模式的信息。最后,对于每个频繁项集 X X X,找到包含 X X X 的非频繁项集 Z Z Z。令 Y = Z \ X Y = Z \backslash X Y=Z\X,即 Y Y Y 包含 Z Z Z 中不在 X X X 中的元素。如果 Y Y Y 是一个频繁项集,则通过 7.3 的定义来确定 X X X Y Y Y 是否呈负相关。


13

a

  • 反单调性:否
    反例: v = 5 v = 5 v=5 S = { 1 , 2 , 3 } S = \{1, 2, 3\} S={1,2,3}
    此时, v ∉ S v \notin S v/S,将 5 5 5 添加进 S S S 后, v ∈ S v \in S vS

    所以,规则约束 v ∈ S v \in S vS 不是反单调的

  • 单调性:是
    v ∈ S v \in S vS
    S ′ S' S S S S 的一个超集
    假设 v ∉ S ′ v \notin S' v/S,则与 S ′ S' S S S S 的超集 相矛盾,所以 v ∈ S ′ v \in S' vS

    所以,规则约束 v ∈ S v \in S vS 是单调的

  • 简洁性:是
    集合 S S S 必须包含元素 v v v,即可以准确无误地产生满足该约束的所有项集

    I t e m Item Item 为所有项的集合,并且 I t e m v = I t e m \ v Item_v=Item\backslash v Itemv=Item\v
    那么所有符合规则约束的项集集合可以表示为: 2 I t e m \ 2 I t e m v 2^{Item}\backslash2^{Item_v} 2Item\2Itemv,其中 2 X 2^X 2X 表示 X X X 的严格幂集

    所以,规则约束 v ∈ S v \in S vS 是简洁的


b

  • 反单调性:是
    S ⊈ V S\not\subseteq V SV,则一定存在一个元素 e ∈ S e \in S eS e ∉ V e \notin V e/V
    S ′ S' S S S S 的超集
    e e e 满足: e ∈ S ′ e \in S' eS e ∉ V e \notin V e/V
    即说明 S ′ ⊈ V S'\not\subseteq V SV

    所以,规则约束 S ⊆ V S\subseteq V SV 是反单调的

  • 单调性:否
    反例: S = 1 , 2 , 3 S={1,2,3} S=1,2,3 V = 1 , 2 , 3 , 4 , 5 V={1,2,3,4,5} V=1,2,3,4,5
    此时, S ⊆ V S\subseteq V SV
    但将 8 8 8 添加入 S S S 后, S ⊈ V S\not\subseteq V SV

    所以,规则约束 S ⊆ V S\subseteq V SV 不是单调的

  • 简洁性:是
    集合 S S S 不能包含任何 V V V 中不包含的元素,即可以准确无误地产生满足该约束的所有项集

    I t e m Item Item 为所有项的集合,并且 I t e m v = I t e m \ v Item_v=Item\backslash v Itemv=Item\v
    再记 V = { v 1 , v 2 , . . . , v n } V=\{v_1,v_2,...,v_n\} V={v1,v2,...,vn}
    那么所有符合规则约束的项集集合可以表示为: S = S v ∪ V S=S_v\cup V S=SvV,其中 S v ∈ 2 I t e m v ∪ ∅ S_v\in2^{Item_v}\cup\emptyset Sv2Itemv

    所以,规则约束 S ⊆ V S\subseteq V SV 是简洁的


c

  • 反单调性:否
    反例: S = { 8 , 9 , 10 } S=\{8,9,10\} S={8,9,10} v = 3 v=3 v=3
    此时, m i n ( S ) ≰ v min(S) \not\leq v min(S)v
    在将 1 1 1 添加入 S S S 后, m i n ( S ) ≤ v min(S) \leq v min(S)v

    所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)v 不是反单调的

  • 单调性:是
    m i n ( S ) ≤ v min(S) \leq v min(S)v,则 S S S 中一定存在一个元素 e e e,使得 e ≤ v e\leq v ev
    S ′ S' S S S S 的超集,即有 e ∈ S ′ e \in S' eS
    所以, m i n ( S ′ ) ≤ e ≤ v min(S')\leq e\leq v min(S)ev

    所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)v 是单调的

  • 简洁性:是
    集合 S S S 必须至少包含一个值小于等于 v v v 的元素,即可以准确无误地产生满足该约束的所有项集

    I t e m Item Item 为所有项的集合,并且 I t e m v Item_v Itemv为所有值小于等于 v v v 的项
    那么所有符合规则约束的项集集合可以表示为: 2 I t e m \ 2 I t e m v 2^{Item}\backslash2^{Item_v} 2Item\2Itemv

    所以,规则约束 m i n ( S ) ≤ v min(S) \leq v min(S)v 是简洁的


d

  • 反单调性:是
    r a n g e ( S ) > v range(S)>v range(S)>v,则 S S S 中一定存在两个元素 e e e f f f,使得 e = m a x ( S ) e=max(S) e=max(S) f = m i n ( S ) f=min(S) f=min(S),同时 e − f > v e-f>v ef>v
    S ′ S' S S S S 的超集,即有 e , f ∈ S ′ e,f \in S' e,fS
    所以, m a x ( S ′ ) ≥ e max(S')\geq e max(S)e m i n ( S ′ ) ≤ f min(S')\leq f min(S)f
    可以得到: r a n g e ( S ′ ) = m a x ( S ′ ) − m i n ( S ′ ) ≥ e − f > v range(S')=max(S')-min(S')\geq e-f>v range(S)=max(S)min(S)ef>v

    所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)v 是反单调的

  • 单调性:否
    反例: S = { 4 , 5 , 6 } S=\{4,5,6\} S={4,5,6} v = 8 v=8 v=8
    此时, r a n g e ( S ) ≤ v range(S)\leq v range(S)v
    在将 13 13 13 添加入 S S S 后, r a n g e ( S ) ≰ v range(S)\not\leq v range(S)v

    所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)v 不是单调的

  • 简洁性:否
    因为规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)v 依赖于 S S S 中的最大最小值。例如: r a n g e ( { 4 , 5 , 6 } ) = 2 range(\{4,5,6\})=2 range({4,5,6})=2,而 r a n g e ( { 3 , 4 , 5 , 6 , 7 , 8 } ) ≠ 2 range(\{3,4,5,6,7,8\})\neq2 range({3,4,5,6,7,8})=2,但对于这种情况,是无法在计数前进行剪枝的,在挖掘过程中必须迭代地检验该规则约束

    所以,规则约束 r a n g e ( S ) ≤ v range(S)\leq v range(S)v 不是简洁的


e

  • 反单调性:可转换的
    令项以值递增的顺序添加到项集中。
    v a r i a n c e ( S ) ≥ v variance(S)\geq v variance(S)v
    S ′ S' S S S S 的超集,则有 v a r i a n c e ( S ’ ) ≥ v a r i a n c e ( S ) ≥ v variance(S’)\geq variance(S)\geq v variance(S)variance(S)v

    所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)v 是反单调的

  • 单调性:可转换的
    I t e m Item Item 为所有项的集合,计算每一项 S i S_i Si 与 所有项均值 a v g ( I t e m ) avg(Item) avg(Item) 的差 d i s i dis_i disi,依照该值将所有项降序排列。
    令项以 d i s i dis_i disi 值递减的顺序添加到项集中。
    v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)v
    S ′ S' S S S S 的超集,则有 v a r i a n c e ( S ’ ) ≤ v a r i a n c e ( S ) ≤ v variance(S’)\leq variance(S)\leq v variance(S)variance(S)v

    所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)v 是反单调的

  • 简洁性:否
    因为规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)v 依赖于 S S S 中的具体项。例如: r a n g e ( { 8 , 56 } ) = 33.94 ≰ 20 = v range(\{8,56\})=33.94\not\leq20=v range({8,56})=33.9420=v,而 r a n g e ( { 3 , 4 , 5 , 6 , 7 , 8 , 13 , 21 , 37 , 49 , 56 } ) = 19.34 ≤ 20 = v range(\{3,4,5,6,7,8,13,21,37,49,56\})=19.34\leq20=v range({3,4,5,6,7,8,13,21,37,49,56})=19.3420=v,但对于这种情况,是无法在计数前进行剪枝的,在挖掘过程中必须迭代地检验该规则约束

    所以,规则约束 v a r i a n c e ( S ) ≤ v variance(S)\leq v variance(S)v 不是简洁的


14

是有效的距离度量

有以下特性:
(a) P a t _ D i s t ( P 1 , P 2 ) > 0 , ∀ P 1 ≠ P 2 Pat\_Dist(P_1,P_2) > 0, \forall P_1\neq P_2 Pat_Dist(P1,P2)>0,P1=P2
(b) P a t _ D i s t ( P 1 , P 2 ) = 0 , ∀ P 1 = P 2 Pat\_Dist(P_1,P_2)=0,\forall P_1=P_2 Pat_Dist(P1,P2)=0,P1=P2
(c) P a t _ D i s t ( P 1 , P 2 ) = P a t _ D i s t ( P 2 , P 1 ) Pat\_Dist(P_1,P_2)=Pat\_Dist(P_2,P_1) Pat_Dist(P1,P2)=Pat_Dist(P2,P1)
(d) P a t _ D i s t ( P 1 , P 2 ) + P a t _ D i s t ( P 2 , P 3 ) > P a t _ D i s t ( P 1 , P 3 ) , ∀ P 1 , P 2 , P 3 Pat\_Dist(P_1,P_2)+Pat\_Dist(P_2,P_3)>Pat\_Dist(P_1,P_3),\forall P_1,P_2,P_3 Pat_Dist(P1,P2)+Pat_Dist(P2,P3)>Pat_Dist(P1,P3),P1,P2,P3

因为 ( T ( P 1 ) ∩ T ( P 2 ) ) ∪ ( T ( P 1 ) ∩ T ( P 3 ) ) ⊆ T ( P 1 ) (T(P_1)\cap T(P_2))\cup(T(P_1)\cap T(P_3)) \subseteq T(P_1) (T(P1)T(P2))(T(P1)T(P3))T(P1), 所以有:

∣ T ( P 1 ) ∩ T ( P 2 ) ∣ + ∣ T ( P 1 ) ∩ T ( P 3 ) ∣ − ∣ T ( P 1 ) ∩ T ( P 2 ) ∩ T ( P 3 ) ∣ ≤ ∣ T ( P 1 ) ∣ |T(P_1)\cap T(P_2)|+|T(P_1)\cap T(P_3)|-|T(P_1)\cap T(P_2)\cap T(P_3)|\leq|T(P_1)| T(P1)T(P2)+T(P1)T(P3)T(P1)T(P2)T(P3)T(P1)

⟹ b 1 + c 1 − d 1 ≤ a \begin{align}\Longrightarrow b_1+c_1-d_1\leq a\end{align} b1+c1d1a

将变量代入得

P a t _ D i s t ( P 1 , P 2 ) + P a t _ D i s t ( P 2 , P 3 ) ≥ P a t _ D i s t ( P 1 , P 3 ) Pat\_Dist(P_1,P_2)+ Pat\_Dist(P_2,P_3) \geq Pat\_Dist(P_1,P_3) Pat_Dist(P1,P2)+Pat_Dist(P2,P3)Pat_Dist(P1,P3)

⟺ b 1 a + b 2 + c 1 a + c 2 ≤ 1 + d 1 + d 2 b 1 + b 2 + c 1 + c 2 − d 1 − d 2 \Longleftrightarrow \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \leq 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2} a+b2b1+a+c2c11+b1+b2+c1+c2d1d2d1+d2

由不等式(1),有:

1 + d 1 + d 2 b 1 + b 2 + c 1 + c 2 − d 1 − d 2 ( ∵ d 2 ≥ 0 ) ≥ 1 + d 1 b 1 + b 2 + c 1 + c 2 − d 1 ( 由式 ( 1 ) ) ≥ 1 + d 1 a + b 2 + c 2 = a + b 2 + c 2 + d 1 a + b 2 + c 2 ( 由式 ( 1 ) ) ≥ b 1 + b 2 + c 1 + c 2 a + b 2 + c 2 = b 1 + c 2 a + b 2 + c 2 + b 2 + c 1 a + b 2 + c 2 ≥ b 1 a + b 2 + c 1 a + c 2 \begin{aligned} & 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2} \\ (∵d_2\geq 0)& \geq 1+\frac{d_1}{b_1+b_2+c_1+c_2-d_1} \\ (由式(1))& \geq 1+\frac{d_1}{a+b_2+c_2} \\ & = \frac{a+b_2+c_2+d_1}{a+b_2+c_2} \\ (由式(1))&\geq \frac{b_1+b_2+c_1+c_2}{a+b_2+c_2} \\ & = \frac{b_1+c_2}{a+b_2+c_2}+\frac{b_2+c_1}{a+b_2+c_2} \\ &\geq \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \\ \end{aligned} (d20)(由式(1))(由式(1))1+b1+b2+c1+c2d1d2d1+d21+b1+b2+c1+c2d1d11+a+b2+c2d1=a+b2+c2a+b2+c2+d1a+b2+c2b1+b2+c1+c2=a+b2+c2b1+c2+a+b2+c2b2+c1a+b2b1+a+c2c1

所以,特性(d)证明是正确的

这个距离度量可以扩展到一般的频繁模式,是有效的距离度量。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值