DM Hw3

最新推荐文章于 2024-10-14 15:53:09 发布

sereinXH

最新推荐文章于 2024-10-14 15:53:09 发布

阅读量955

点赞数 18

文章标签：概率论数据挖掘

本文链接：https://blog.csdn.net/sereinXH/article/details/137602217

版权

Hw3

1
- a
- b
- c
- d
2
- a
- b
- c - (a)
- c - (b)
3
4
5
- a
- b
6
7
- a
- b
- c
- d
- e
8
- a
- - i
  - ii
  - iii
- b
- - i
  - ii
  - iii
  - iv
9
- a
- b
10
- a
- b
11
- a
- b
- c
12
13
- a
- b
- c
- d
- e
14

1

a

$c_{(\emptyset\rightarrow A)}=\frac{\sigma(\emptyset\cup A)}{\sigma(\emptyset)}=\frac{\sigma(A)}{N}=s_{(\emptyset\rightarrow A)}$

$c_{(A\rightarrow\emptyset)}=\frac{\sigma(A\cup\emptyset)}{\sigma(A)}=100\%$

b

$c_1=\frac{\sigma(p\cup q)}{\sigma(p)}$
$c_2=\frac{\sigma(p\cup q\cup r)}{\sigma(p)}$
$c_3=\frac{\sigma(p\cup q\cup r)}{\sigma(p\cup q)}$

易知： $\sigma(p\cup q\cup r)\leq\sigma(p\cup q)\leq\sigma(p)$
所以有： $c_2\leq c_1$ ， $c_2\leq c_3$
即：规则 $c_2$ 置信度最低

c

因为 $c_1,c_2,c_3$ 支持度相同
所以有： $\sigma(p\cup q)=\sigma(p\cup q)=\sigma(p\cup q\cup r)$
即： $\sigma(p\cup q\cup r)=\sigma(p\cup q)\leq\sigma(p)$
所以有： $c_1=c_2\leq c_3$
即：规则 $c_3$ 置信度最高

d

可能

例如：
$\sigma(A)=50\%$
$\sigma(B)=80\%$
$\sigma(C)=50\%$
$\sigma(A\cup B)=50\%$
$\sigma(B\cup C)=50\%$
$\sigma(A\cup C)=20\%$
$minconf=50\%$

则有：
$c_{(A\rightarrow B)}=\frac{\sigma(A\cup B)}{\sigma(A)}=100\%$
$c_{(B\rightarrow C)}=\frac{\sigma(B\cup C)}{\sigma(B)}=62.5\%$
$c_{(A\rightarrow C)}=\frac{\sigma(A\cup C)}{\sigma(A)}=40\%$

此时满足：
$c_{(A\rightarrow B)}\geq minconf$
$c_{(B\rightarrow C)}\geq minconf$
而：
$c_{(A\rightarrow C)}\leq minconf$

2

a

$\zeta$ 是反单调的

取 $k = 2 和 3$ 的情况：

$\begin {aligned}\zeta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned}$

$\begin {aligned}\zeta(\set{A,B,C})&=min[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A)},\frac{\sigma(A\cup B \cup C)}{\sigma(B)},\frac{\sigma(A\cup B \cup C)}{\sigma(C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned}$

因为有 $\sigma(A\cup B)\geq\sigma(A\cup B \cup C)$ ，且 $max[\sigma(A),\sigma(B)]\leq max[\sigma(A),\sigma(B),\sigma(C)]$

所以可以得到：

$\set{A,B}\subset\set{A,B,C}$ 时，有 $\zeta(\set{A,B})\geq\zeta(\set{A,B,C})$

所以 $\zeta$ 是反单调的

b

$\eta$ 是非单调的

同样取 $k = 2 和 3$ ：

$\begin {aligned}\eta(\set{A,B})&=min[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=min[\frac{\sigma(A\cup B)}{\sigma(A)},\frac{\sigma(A\cup B)}{\sigma(B)}]\\&=\frac{\sigma(A\cup B)}{max[\sigma(A),\sigma(B)]}\end {aligned}$

$\begin {aligned}\eta(\set{A,B,C})&=min[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=min[\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup B)},\frac{\sigma(A\cup B \cup C)}{\sigma(B\cup C)},\frac{\sigma(A\cup B \cup C)}{\sigma(A\cup C)}]\\&=\frac{\sigma(A\cup B \cup C)}{max[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned}$

有： $\sigma(A\cup B)\geq\sigma(A\cup B \cup C)$
和 $max[\sigma(A),\sigma(B)]\geq max[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)]$
(因为 $min[\sigma(A),\sigma(B)]\geq \sigma(A\cup B)$ )

所以无法比较 $\eta(\set{A,B})$ 和 $\eta(\set{A,B,C})$ 的大小关系

所以 $\eta$ 是非单调的

c - (a)

$\zeta'$ 是非单调的

$\begin {aligned}\zeta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned}$

$\begin {aligned}\zeta'(\set{A,B,C})&=max[c_{(A\rightarrow BC)},c_{(B\rightarrow AC)},c_{(C\rightarrow AB)}\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A),\sigma(B),\sigma(C)]}\end {aligned}$

有： $\sigma(A\cup B)\geq\sigma(A\cup B \cup C)$
和 $min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)]$

所以无法比较 $\zeta'(\set{A,B})$ 和 $\zeta'(\set{A,B,C})$ 的大小关系

所以 $\zeta'$ 是非单调的

c - (b)

$\eta'$ 是非单调的

$\begin {aligned}\eta'(\set{A,B})&=max[c_{(A\rightarrow B)},c_{(B\rightarrow A)}]\\&=\frac{\sigma(A\cup B)}{min[\sigma(A),\sigma(B)]}\end {aligned}$

$\begin {aligned}\eta'(\set{A,B,C})&=max[c_{(AB\rightarrow C)},c_{(BC\rightarrow A)},c_{(AC\rightarrow B)}]\\&=\frac{\sigma(A\cup B \cup C)}{min[\sigma(A\cup B),\sigma(B\cup C),\sigma((A\cup C)]}\end {aligned}$

有： $\sigma(A\cup B)\geq\sigma(A\cup B \cup C)$
和 $min[\sigma(A),\sigma(B)]\geq min[\sigma(A),\sigma(B),\sigma(C)]\geq min[\sigma(A\cup B),\sigma(B\cup C),\sigma(A\cup C)]$

所以无法比较 $\eta'(\set{A,B})$ 和 $\eta'(\set{A,B,C})$ 的大小关系

所以 $\eta'$ 是非单调的

3

先从 $d$ 项中选 $k$ 项来创建形成规则左部项集： $d\choose k$
再选择剩下的 $d - k$ 项形成规则右部： $d-k\choose i$
所以总方法数 $R$ 为：
$\begin{aligned}R &=\sum\limits_{k=1}^{d}{d\choose k}\sum\limits_{i=1}^{d-k}{d-k\choose i}\\(∵\sum\limits_{i=1}^{n}{n\choose i}=2^n-1)&=\sum\limits_{k=1}^{d}{d\choose k}(2^{d-k}-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-\sum\limits_{k=1}^{d}{d\choose k}\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-(2^d-1)\\&=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1\end{aligned}$

又 ∵ $(1+x)^n=\sum\limits_{i=1}^{n}{n\choose i}x^{n-i}+x^n$

当 $x = 2$ 时，有：
$3^n=\sum\limits_{i=1}^{n}{n\choose i}2^{n-i}+2^n$
即：
$\sum\limits_{i=1}^{n}{n\choose i}2^{n-i}=3^n-2^n$

$\begin{aligned}∴R &=\sum\limits_{k=1}^{d}{d\choose k}2^{d-k}-2^d+1 \\&=3^d-2^d-2^d+1 \\&=3^d-2^{d+1}+1\end{aligned}$

4

在这里插入图片描述

5

a

$\set b\rightarrow\set c$

	$c$	$\bar{c}$
$b$	3	4	7
$\bar{b}$	2	1	3
	5	5	10

$\set a\rightarrow\set d$

	$d$	$\bar{d}$
$a$	4	1	5
$\bar{a}$	5	0	5
	9	1	10

$\set b\rightarrow\set d$

	$d$	$\bar{d}$
$b$	6	1	7
$\bar{b}$	3	0	3
	9	1	10

$\set e\rightarrow\set c$

	$c$	$\bar{c}$
$e$	2	4	6
$\bar{e}$	3	1	4
	5	5	10

$\set c\rightarrow\set a$

	$a$	$\bar{a}$
$c$	2	3	5
$\bar{c}$	3	2	5
	5	5	10

b

i 支持度

规则	支持度	排序
$\set b\rightarrow\set c$	$0.3$	3
$\set a\rightarrow\set d$	$0.4$	2
$\set b\rightarrow\set d$	$0.6$	1
$\set e\rightarrow\set c$	$0.2$	4
$\set c\rightarrow\set a$	$0.2$	4

ii 置信度

规则	置信度	排序
$\set b\rightarrow\set c$	$0.429$	3
$\set a\rightarrow\set d$	$0.8$	2
$\set b\rightarrow\set d$	$0.857$	1
$\set e\rightarrow\set c$	$0.333$	5
$\set c\rightarrow\set a$	$0.4$	4

iii 兴趣因子

规则	兴趣因子	排序
$\set b\rightarrow\set c$	$0.214$	3
$\set a\rightarrow\set d$	$0.72$	2
$\set b\rightarrow\set d$	$0.771$	1
$\set e\rightarrow\set c$	$0.167$	5
$\set c\rightarrow\set a$	$0.2$	4

iv IS度量

规则	IS值	排序
$\set b\rightarrow\set c$	$0.507$	3
$\set a\rightarrow\set d$	$0.596$	2
$\set b\rightarrow\set d$	$0.756$	1
$\set e\rightarrow\set c$	$0.365$	5
$\set c\rightarrow\set a$	$0.4$	4

v Klosgen

规则	Klosgen	排序
$\set b\rightarrow\set c$	$- 0.039$	2
$\set a\rightarrow\set d$	$- 0.063$	4
$\set b\rightarrow\set d$	$- 0.033$	1
$\set e\rightarrow\set c$	$- 0.075$	5
$\set c\rightarrow\set a$	$- 0.045$	3

vi 几率

规则	几率	排序
$\set b\rightarrow\set c$	$0.0375$	2
$\set a\rightarrow\set d$	$0$	4
$\set b\rightarrow\set d$	$0$	4
$\set e\rightarrow\set c$	$0.167$	3
$\set c\rightarrow\set a$	$0.444$	1

6

图中，柱的纵长度即代表项集的支持度。

题号	频繁项集要求	数据集	原因
a	最多	(e)	纵长度大于等于1000的项集最多
b	最少	(d)	纵长度大于等于1000的项集为0，即没有频繁项集
c	最长	(e)	使用Apriori算法时，需要进行迭代次数最多
d	最大支持度	(b)	有纵长度最长的项集(支持度约为90%)
e	最广泛支持度	(e)	有最多的不同纵长度的项集数(支持度由小于20%到大于70%)

7

a

天气条件 = 好	天气条件 = 坏	驾驶员状况 = 饮酒	驾驶员状况 = 清醒	交通违章 = 超速	交通违章 = 无	交通违章 = 不遵守停车指示	交通违章 = 不遵守交通信号	安全带 = 无	安全带 = 有	损毁程度 = 较大	损毁程度 = 较小
1	0	1	0	1	0	0	0	1	0	1	0
0	1	0	1	0	1	0	0	0	1	0	1
1	0	0	1	0	0	1	0	0	1	0	1
1	0	0	1	1	0	0	0	0	1	1	0
0	1	0	1	0	0	0	1	1	0	1	0
1	0	1	0	0	0	1	0	0	1	0	1
0	1	1	0	0	1	0	0	0	1	1	0
1	0	0	1	0	0	0	1	0	1	1	0
1	0	1	0	0	1	0	0	1	0	1	0
0	1	0	1	0	0	0	1	1	0	1	0
1	0	1	0	1	0	0	0	0	1	1	0
0	1	0	1	0	0	1	0	0	1	0	1

b

每个事务最大宽度为： $5$

c

候选项集： $10 + 28 + 3 = 41$
频繁项集： $8 + 10 + 0 = 18$

d

天气条件 = 坏	驾驶员状况 = 饮酒	交通违章 = 是	安全带 = 无	损毁程度 = 较大
0	1	1	1	1
1	0	0	0	0
0	0	1	0	0
0	0	1	0	1
1	0	1	1	1
0	1	1	0	0
1	1	0	0	1
0	0	1	0	1
0	1	0	1	1
1	0	1	1	1
0	1	1	0	1
1	0	1	0	0

候选项集： $5 + 10 + 0 = 15$
频繁项集： $5 + 3 + 0 = 8$

e

(d)相对于(c)，候选和频繁项集更少。

8

a

i

$2^{500}-1$

ii

$2^{1000}-1$

iii

因为这种方法产生的候选项集太多，其中很多都是无用的，会使计算浪费，降低计算的效率。

b

考虑碳酸饮料的二元化数据集：

事务	普通	$\neg$ 普通	节食	$\neg$ 节食
1	1	0	0	1
2	0	1	1	0
3	1	0	0	1
4	0	1	1	0
5	0	1	0	1
6	1	0	0	1
7	0	1	1	0

$\sigma(\neg普通\cup节食)=3$
$\sigma(\neg节食\cup普通)=3$
$\sigma(普通)=\sigma(节食)=3$
$\sigma(\neg普通)=\sigma(\neg节食)=4$

i

$\neg$ 普通 $\rightarrow$ 节食

$s_1=\frac{\sigma(\neg普通\cup节食)}{N}=\frac{3}{7}=42.9\%$

$c_1=\frac{\neg普通\cup节食}{\neg普通}=\frac{3}{4}=75\%$

ii

普通 $\rightarrow$ $\neg$ 节食

$s_2=\frac{3}{7}=42.9\%$

$c_2=\frac{3}{3}=100\%$

iii

$\neg$ 节食 $\rightarrow$ 普通

$s_3=s_1=42.9\%$

$c_3=\frac{3}{4}=75\%$

iv

节食 $\rightarrow$ $\neg$ 普通

$s_4=s_2=42.9\%$

$c_4=\frac{3}{3}=100\%$

9

a

Apriori算法

候选1-项集：{M}，{O}，{N}，{K}，{E}，{Y}，{D}，{A}，{U}，{C}，{I}
频繁1-项集：{M}，{O}，{K}，{E}，{Y}

候选2-项集：{M,O}，{M,K}，{M,E}，{M,Y}，{O,K}，{O,E}，{O,Y}，{K,E}，{K,Y}，{E,Y}
频繁2-项集：{M,K}，{O,K}，{O,E}，{K,E}，{K,Y}

候选3-项集：{O,K,E}
频繁3-项集：{O,K,E}

候选4-项集： $\emptyset$
频繁4-项集： $\emptyset$

所以，频繁项集为：{M}，{O}，{K}，{E}，{Y}，{M,K}，{O,K}，{O,E}，{K,E}，{K,Y}，{O,K,E}
Fp-growth 算法：

频繁1-项集排序：{K}，{E}，{M}，{O}，{Y}

所以将事务商品重新筛选排序：

TID 商品
T100 {K, E, M, O ,Y}
T200 {K, E, O, Y}
T300 {K, E, M}
T400 {K, M, Y}
T500 {K, E, O}

TID	商品
T100	{K, E, M, O ,Y}
T200	{K, E, O, Y}
T300	{K, E, M}
T400	{K, M, Y}
T500	{K, E, O}

对于 Y： ${KEMO：1\}$ ， ${KEO：1\}$ ， ${KM:1\}$ ，所以频繁项集为： ${K,Y\}$
对于 O： ${KEM：1\}$ ， ${KE：2\}$ ，所以频繁项集为： ${K,E,O\}$ ， ${K,O\}$ ， ${E,O\}$
对于 M： ${KE：2\}$ ， ${K：1\}$ ，所以频繁项集为： ${K,M\}$
对于 E： ${K：4\}$ ， ${KE：2\}$ ，所以频繁项集为： ${K,E\}$

所以，频繁项集为：{K}，{E}，{M}，{O}，{Y}，{K,Y}，{K,E,O}，{K,O}，{E,O}，{K,M}，{K,E}

Apriori算法在生成候选项集和计算支持度时需要多次扫描数据集，更适合相对较小的数据集。而FP-growth算法只需要对数据集进行两次扫描，一次用于构建FP树，一次用于挖掘频繁项集，因此在大型数据集上具有较高的效率。

b

对于 $\rightarrow O$ ： $60\%$ ， $\frac{3}{4}=75\% \lt 80\%$
对于 $\rightarrow E$ ： $60\%$ ， $\frac{3}{3}=100\% \gt 80\%$
对于 $\rightarrow K$ ： $60\%$ ， $\frac{3}{3}=100\% \gt 80\%$

所以强关联规则为： $\{K,O \rightarrow E\}$ 和 $\{E,O \rightarrow K\}$

10

a

频繁3-项集：{bread, cheese, milk}

$bread\land cheese \rightarrow milk$ , $[75\%,100\%]$
$cheese\land milk \rightarrow bread$ , $[75\%,100\%]$
$\rightarrow milk\land bread$ , $[75\%,100\%]$

b

频繁3-项集：{Dairyland-Milk, Tasty-Pie, Wonder-Bread}，{Sunset-Milk, Dairyland-Cheese, Wonder-Bread}

11

a

$s=\frac{\sigma(hotdogs\cup hamburgers)}{N}=\frac{2000}{5000}=40\% >25\%$

$c=\frac{\sigma(hotdogs\cup hamburgers)}{\sigma(hotdogs)}=\frac{2000}{3000}=66.7\% >50\%$

所以关联规则 $h o t$ $dogs\rightarrow humburgers$ 是 强规则

b

$P(hotdogs,hamburgers)=\frac{2000}{5000}=0.4$

$P(hotdogs)=\frac{3000}{5000}=0.6$
$P(hamburgers)=\frac{2500}{5000}=0.5$

显然： $lift(hotdogs,hamburgers)=\frac{P(hotdogs\cup hamburgers)}{P(hotdogs)\times P(hamburgers)}=\frac{0.4}{0.5\times0.6}=1.333>1$
所以，买 $h o t$ $d o g s$ 不独立于买 $hamb u r g ers$ ，且为正相关

c

以下用 $a$ 表示 $h o t d o g s$ ， $b$ 表示 $hamb u r g ers$

全置信度： $all\_conf(a,b)=\frac{\sigma(a\cup b)}{max\{\sigma(a),\sigma(b)\}}=\frac{0.4}{0.6}=0.667$
最大置信度： $max\_conf(a,b)=max\{P(a|b),P(b|a)\}=\frac{0.4}{0.5}=0.8$
Kulczynski： $Kulc(a,b)=\frac{1}{2}\cdot(P(a|b)+P(b|a))=\frac{1}{2}\times(\frac{0.4}{0.5}+\frac{0.4}{0.6})=0.733$
余弦度量： $cosine(a,b)=\sqrt{P(a|b)\times P(b|a)}=\sqrt{\frac{0.4}{0.5}\times\frac{0.4}{0.6}}=0.730$
提升度： $l i f t (h o t d o g s, hamb u r g ers) = 1.333$
$\chi^2$ ：缺少期望值，无法计算

以上方法均表现出二者的正相关性

12

先针对每个频繁项，构建其条件模式基，再构建其条件FP树。对每个新创建的条件FP树重复该过程，直到所得到的FP树为空或仅包含一条路径。用于存储关于频繁和非频繁模式的信息。最后，对于每个频繁项集 $X$ ，找到包含 $X$ 的非频繁项集 $Z$ 。令 $\ X Y = Z \backslash X$ ，即 $Y$ 包含 $Z$ 中不在 $X$ 中的元素。如果 $Y$ 是一个频繁项集，则通过 7.3 的定义来确定 $X$ 和 $Y$ 是否呈负相关。

13

a

反单调性：否
反例： $v = 5$ ， $S = \{1, 2, 3\}$
此时， $\notin S$ ，将 $5$ 添加进 $S$ 后， $\in S$

所以，规则约束 $\in S$ 不是反单调的
单调性：是
令 $\in S$
记 $S^{'}$ 是 $S$ 的一个超集
假设 $\notin S'$ ，则与 $S^{'}$ 是 $S$ 的超集相矛盾，所以 $\in S'$

所以，规则约束 $\in S$ 是单调的
简洁性：是
集合 $S$ 必须包含元素 $v$ ，即可以准确无误地产生满足该约束的所有项集

记 $I t e m$ 为所有项的集合，并且 $\ v Item_v=Item\backslash v$
那么所有符合规则约束的项集集合可以表示为： $\ 2 I t e m v 2^{Item}\backslash2^{Item_v}$ ，其中 $2^X$ 表示 $X$ 的严格幂集

所以，规则约束 $\in S$ 是简洁的

b

反单调性：是
令 $S\not\subseteq V$ ，则一定存在一个元素 $\in S$ 且 $\notin V$
记 $S^{'}$ 是 $S$ 的超集
则 $e$ 满足： $\in S'$ 且 $\notin V$
即说明 $S'\not\subseteq V$

所以，规则约束 $S\subseteq V$ 是反单调的
单调性：否
反例： $S={1,2,3}$ $V={1,2,3,4,5}$
此时， $S\subseteq V$
但将 $8$ 添加入 $S$ 后， $S\not\subseteq V$

所以，规则约束 $S\subseteq V$ 不是单调的
简洁性：是
集合 $S$ 不能包含任何 $V$ 中不包含的元素，即可以准确无误地产生满足该约束的所有项集

记 $I t e m$ 为所有项的集合，并且 $\ v Item_v=Item\backslash v$
再记 $V=\{v_1,v_2,...,v_n\}$
那么所有符合规则约束的项集集合可以表示为： $S=S_v\cup V$ ，其中 $S_v\in2^{Item_v}\cup\emptyset$

所以，规则约束 $S\subseteq V$ 是简洁的

c

反单调性：否
反例： $S=\{8,9,10\}$ ， $v = 3$
此时， $\not\leq v$
在将 $1$ 添加入 $S$ 后， $\leq v$

所以，规则约束 $\leq v$ 不是反单调的
单调性：是
令 $\leq v$ ，则 $S$ 中一定存在一个元素 $e$ ，使得 $e\leq v$
记 $S^{'}$ 是 $S$ 的超集，即有 $\in S'$
所以， $min(S')\leq e\leq v$

所以，规则约束 $\leq v$ 是单调的
简洁性：是
集合 $S$ 必须至少包含一个值小于等于 $v$ 的元素，即可以准确无误地产生满足该约束的所有项集

记 $I t e m$ 为所有项的集合，并且 $Item_v$ 为所有值小于等于 $v$ 的项
那么所有符合规则约束的项集集合可以表示为： $\ 2 I t e m v 2^{Item}\backslash2^{Item_v}$

所以，规则约束 $\leq v$ 是简洁的

d

反单调性：是
令 $r an g e (S) > v$ ，则 $S$ 中一定存在两个元素 $e$ 和 $f$ ，使得 $e = ma x (S)$ 且 $f = min (S)$ ，同时 $e - f > v$
记 $S^{'}$ 是 $S$ 的超集，即有 $\in S'$
所以， $max(S')\geq e$ 且 $min(S')\leq f$
可以得到： $range(S')=max(S')-min(S')\geq e-f>v$

所以，规则约束 $range(S)\leq v$ 是反单调的
单调性：否
反例： $S=\{4,5,6\}$ ， $v = 8$
此时， $range(S)\leq v$
在将 $13$ 添加入 $S$ 后， $range(S)\not\leq v$

所以，规则约束 $range(S)\leq v$ 不是单调的
简洁性：否
因为规则约束 $range(S)\leq v$ 依赖于 $S$ 中的最大最小值。例如： $range(\{4,5,6\})=2$ ，而 $range(\{3,4,5,6,7,8\})\neq2$ ，但对于这种情况，是无法在计数前进行剪枝的，在挖掘过程中必须迭代地检验该规则约束

所以，规则约束 $range(S)\leq v$ 不是简洁的

e

反单调性：可转换的
令项以值递增的顺序添加到项集中。
令 $variance(S)\geq v$
记 $S^{'}$ 是 $S$ 的超集，则有 $variance(S’)\geq variance(S)\geq v$

所以，规则约束 $variance(S)\leq v$ 是反单调的
单调性：可转换的
记 $I t e m$ 为所有项的集合，计算每一项 $S_i$ 与所有项均值 $a vg (I t e m)$ 的差 $dis_i$ ，依照该值将所有项降序排列。
令项以 $dis_i$ 值递减的顺序添加到项集中。
令 $variance(S)\leq v$
记 $S^{'}$ 是 $S$ 的超集，则有 $variance(S’)\leq variance(S)\leq v$

所以，规则约束 $variance(S)\leq v$ 是反单调的
简洁性：否
因为规则约束 $variance(S)\leq v$ 依赖于 $S$ 中的具体项。例如： $range(\{8,56\})=33.94\not\leq20=v$ ，而 $range(\{3,4,5,6,7,8,13,21,37,49,56\})=19.34\leq20=v$ ，但对于这种情况，是无法在计数前进行剪枝的，在挖掘过程中必须迭代地检验该规则约束

所以，规则约束 $variance(S)\leq v$ 不是简洁的

14

是有效的距离度量

有以下特性:
(a) $Pat\_Dist(P_1,P_2) > 0, \forall P_1\neq P_2$
(b) $Pat\_Dist(P_1,P_2)=0,\forall P_1=P_2$
(c) $Pat\_Dist(P_1,P_2)=Pat\_Dist(P_2,P_1)$
(d) $Pat\_Dist(P_1,P_2)+Pat\_Dist(P_2,P_3)>Pat\_Dist(P_1,P_3),\forall P_1,P_2,P_3$

因为 $(T(P_1)\cap T(P_2))\cup(T(P_1)\cap T(P_3)) \subseteq T(P_1)$ , 所以有：

$|T(P_1)\cap T(P_2)|+|T(P_1)\cap T(P_3)|-|T(P_1)\cap T(P_2)\cap T(P_3)|\leq|T(P_1)|$

$\begin{align}\Longrightarrow b_1+c_1-d_1\leq a\end{align}$

将变量代入得

$Pat\_Dist(P_1,P_2)+ Pat\_Dist(P_2,P_3) \geq Pat\_Dist(P_1,P_3)$

$\Longleftrightarrow \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \leq 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2}$

由不等式(1)，有:

$\begin{aligned} & 1+ \frac{d_1+d_2}{b_1+b_2+c_1+c_2-d_1-d_2} \\ (∵d_2\geq 0)& \geq 1+\frac{d_1}{b_1+b_2+c_1+c_2-d_1} \\ (由式(1))& \geq 1+\frac{d_1}{a+b_2+c_2} \\ & = \frac{a+b_2+c_2+d_1}{a+b_2+c_2} \\ (由式(1))&\geq \frac{b_1+b_2+c_1+c_2}{a+b_2+c_2} \\ & = \frac{b_1+c_2}{a+b_2+c_2}+\frac{b_2+c_1}{a+b_2+c_2} \\ &\geq \frac{b_1}{a+b_2}+\frac{c_1}{a+c_2} \\ \end{aligned}$