关联规则（三）：带时间间隔的序列模式挖掘

最新推荐文章于 2022-12-04 21:40:07 发布

anshuai_aw1

最新推荐文章于 2022-12-04 21:40:07 发布

阅读量3.4k

点赞数 3

分类专栏：数据挖掘文章标签：序列模式时间间隔 I-PrefixSpan

本文链接：https://blog.csdn.net/anshuai_aw1/article/details/86537240

版权

数据挖掘专栏收录该内容

3 篇文章 2 订阅

订阅专栏

序列模式挖掘，即是在序列数据库中挖掘出频繁子序列，是一个具有广泛应用的重要的数据挖掘问题。PrefixSpan 算法可以有效地挖掘出大规模数据的频繁子序列，然而，它并没有项集之间的时间间隔。因此，本文提出了一种带时间间隔的序列模式挖掘算法，我们称其为I-PrefixSpan算法。

一、引言

带时间间隔的序列模式可以提供比传统序列模式更有价值的信息。我们以零售业务为例：在带时间间隔的序列模式的帮助下，零售商不仅可以了解客户的习惯，兴趣和需求，还可以了解他们购物的时间。因此，带时间间隔的序列模式允许零售商在合适的时间向正确的客户提供正确的产品和正确的服务。带时间间隔的序列模式也可以从许多其他类型的数据中挖掘出来，例如警察部门的犯罪记录，旅行社的旅行者记录，医院的诊断记录以及任何其他商业记录。在所有这些情况下，如果可以挖掘出带时间间隔的序列模式，那么在决策时将会非常有用。

比如，在电子商务的世界中，可以从日志中提取客户的购买行为。例如，在网上购买了产品A，客户在一周内返回购买产品B。这些时间间隔序列模式产生巨大的好处。最简单的应用，通过推送技术可以主动向客户发送所需的信息。无需浏览网站，客户可以获得全新的所需信息。因此，不仅客户体验到快速获得的正确信息的便利性，而且还增加了他们从该公司购买产品的可能性。

二、I-PrefixSpan算法原理

先看一下什么是时间间隔交易数据库和它的支持度的定义，举例如下：

设定时间间隔集合 $IT=\left \{ I_0,I_1,I_2,I_3\right \}$ ，其中 $I_0:t=0, I_1:0<t\le3, I_2:3<t\le6,I_3:6<t\le\infty$ 。有一时间间隔的序列 $b,I_1,e,I_2,c)$ 包括3项，因此该序列长度为3。我们称其为3时间间隔序列（ 3-time-interval sequence）。我们可以看到， $b,I_1,e,I_2,c)$ 是交易序号40的时间间隔子序列，同样，它也是交易序号10和30时间间隔子序列，因此，它的支持度为 $0.75$ 。如果设定最小支持度为0.5， $b,I_1,e,I_2,c)$ 就是该交易数据库的频繁3时间间隔子序列。

接下来，我先介绍带时间间隔的前缀，投影，后缀，映射数据库等概念。形式化地介绍一下I-PrefixSpan算法。

定义一：
给定一个交易序列 $\alpha=((a_1,t_1),(a_2,t_2),(a_3,t_3),...,(a_n,t_n))$ 和一个时间间隔序列 $\beta=(b_1,\&_1,b_2,\&_2,...,b_{m-1},\&_{m-1},b_m)(m\le n)$ 。 $\beta$ 被称为 $\alpha$ 的 时间间隔前缀(time-interval prefix)当且仅当（1）： $b_i=a_i,1\le i\le m$ ；（2）： $t_i-t_{i-1}$ 满足 $amp;_{i-1}$ ， $1\le i\le m-1$ 。

概念有点晦涩，举例如下：设定时间间隔集合 $IT=\left \{ I_0,I_1,I_2,I_3\right \}$ ，其中 $I_0:t=0, I_1:0<t\le3, I_2:3<t\le6,I_3:6<t\le\infty$ 。 $\beta=(b,I_0,c,I_1,a)$ 是 $\alpha=((b,1),(c,1),(a,3),(e,5),(b,7),(d,7),(a,11))$ 的时间间隔前缀。

定义二：
给定一个交易序列 $\alpha=((a_1,t_1),(a_2,t_2),(a_3,t_3),...,(a_n,t_n))$ 和一个时间间隔序列 $\beta=(b_1,\&_1,b_2,\&_2,...,b_{s-1},\&_{s-1},b_s)(s\le n)$ ，使得 $\beta$ 是 $\alpha$ 的时间间隔子序列。令 $i_1<i_2<...<i_s$ 是与 $\beta$ 中元素匹配的 $\alpha$ 元素的索引。一个 $\alpha$ 的子序列 ${\alpha}'=(({a_1}',{t_1}'),({a_2}',{t_2}'),({a_3}',{t_3}'),...,({a_p}',{t_p}'))$ ，其中 $p=s+n-i_s$ 被称为 $\alpha$ 相对于 $\beta$ 的投影(projection)当且仅当（1）： $\beta$ 是 ${\alpha}'$ 的时间间隔前缀；（2） ${\alpha}'$ 的最后 $n-i_s$ 个元素与 ${\alpha}$ 的最后 $n-i_s$ 个元素完全相同。

举例如下：如果 $\alpha=((a,1),(c,3),(a,4),(b,4),(a,6),(e,6),(c,10))$ 被投影到 $\beta=(a)$ ,则可以获得3个不同的映射，分别是 $((a, 1), (c, 3), (a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ ， $((a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ 和 $((a, 6), (e, 6), (c, 10))$ ，值得注意的是，前缀 $\beta$ 在 $\alpha$ 中出现了3次，第一次出现在了位置1，第二次出现在了位置3，第三次出现在了位置5。对于位置1来说， ${\alpha}'=((a,1),(c,3),(a,4),(b,4),(a,6),(e,6),(c,10))$ ， ${\alpha}'$ 的最后 $6$ 个元素与 ${\alpha}$ 的最后 $6$ 个元素完全相同。进一步地，对于位置3来说， ${\alpha}'=((a,4),(b,4),(a,6),(e,6),(c,10))$ ， ${\alpha}'$ 的最后 $4$ 个元素与 ${\alpha}$ 的最后 $4$ 个元素完全相同。对于位置5来说， ${\alpha}'=((a,6),(e,6),(c,10))$ ， ${\alpha}'$ 的最后 $2$ 个元素与 ${\alpha}$ 的最后 $2$ 个元素完全相同。

上述示例表明，序列 ${\alpha}$ 相对于前缀 $\beta$ 进行投影的话，可能产生不止一个投影 ${\alpha}'$ 。为了区分这些不同的投影，使用 $[S i d ： P o s]$ 附加到每个 ${\alpha}'$ ，其中 $S i d$ 是交易序列的标识符， $P o s$ 是匹配 $\beta$ 的最后一个元素在 ${\alpha}$ 的位置。

定义三：
令 ${\alpha}'=(({a_1}',{t_1}'),({a_2}',{t_2}'),({a_3}',{t_3}'),...,({a_p}',{t_p}'))$ 是 $\alpha$ 相对于时间间隔前缀 $\beta=(b_1,\&_1,b_2,\&_2,...,b_{s-1},\&_{s-1},b_s)$ 的投影。我们称 $\gamma=(({a_{s+1}}',{t_{s+1}}'),({a_{s+2}}',{t_{s+2}}'),({a_{s+3}}',{t_{s+3}}'),...,({a_p}',{t_p}'))$ 是 $\alpha$ 相对于前缀 $\beta$ 的后缀(postfix)。

举例如下：从后缀的定义得知，我们直接从投影中移除前缀就可以得到后缀。 $\beta=(a)$ 的3个不同的投影 ${\alpha}'$ 分别是 $((a, 1), (c, 3), (a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ ， $((a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ 和 $((a, 6), (e, 6), (c, 10))$ 。因此，3个后缀分别是 $((c, 3), (a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ ， $((b, 4), (a, 6), (e, 6), (c, 10))$ 和 $((e, 6), (c, 10))$ 。

最后， $\alpha$ -映射数据库，我们用 $S|_\alpha$ 表示，定义为交易数据库 $S$ 相对于 $\alpha$ 的后缀的集合。

I-PrefixSpan算法最重要的一点在于，其包括了在 $S|_\alpha$ 中的频繁项 $b$ 与 $\alpha$ 中的最后一项之间的时间间隔关系。在I-PrefixSpan，使用了一个数据结构表 $T a b l e$ 来具体解决这个问题。具体地，在交易数据库中， $T a b l e$ 的每一列代表每个频繁1项集（可以理解为每个sku），每一行代表时间间隔集合 $IT=\left \{ I_0,I_1,I_2,...,I_r\right \}$ 的每一项。 $T a b l e$ 的元素 $Table(I_i,b)$ 记录了在 $S|_\alpha$ 中满足商品 $b$ 与 $\alpha$ 的最后一项之间的时间差位于 $I_i$ 内的那些交易的数量和。

顺序地处理 $S|_\alpha$ 中的每个交易从而构建 $T a b l e$ 和那些频繁出现的元素。如果元素 $Table(I_i,b)$ 是一个频繁元素， $I_i,b)$ 可以加入到 $\alpha$ 中从而生成一个时间间隔序列模式 ${\alpha}'$ ，然后可以构建 ${\alpha}'$ -映射数据库 $S|_{{\alpha}'}$ ，最终递归生成所有的频繁子序列。下图展示了I-PrefixSpan算法的流程：

以上的讲述可能确实比较晦涩，抽象化的东西都是这样。接下来，我们实例化以上的内容。

三、I-PrefixSpan算法举例

A：
设定时间间隔集合 $IT=\left \{ I_0,I_1,I_2,I_3\right \}$ ，其中 $I_0:t=0, I_1:0<t\le3, I_2:3<t\le6,I_3:6<t\le\infty$ 。交易序列数据库还使用图1所示。最小支持度设定为2。在一开始， $\alpha=null$ ，1频繁项集为 $(a), (b), (c), (d), (e)$ 。因为 $f$ 只出现了1次。把这5个频繁项集加入到 $\alpha=null$ 后会生成5个不同的 ${\alpha}'$ ，对于每个 ${\alpha}'$ 该程序都会重新调用。我们现在只考虑一种情况 ${\alpha}'=(a)$ ，因此 $I-PrefixSpan((a),1,S|_{(a)})$ 被调用，则投影数据库 $S|_{(a)}$ 如下所示：
$\begin{aligned} [10:1]\\ &((c,3),(a,4),(b,4),(a,6),(e,6),(c,10))\\ [10:4]\\ &((b,4),(a,6),(e,6),(c,10)) \\ [10:6] \\ &((e,6),(c,10)) \\ [20:7]\\ &((b,7),(e,7),(d,9),(e,9),(c,14),(d,14)) \\ [30:8] \\ &((b,8),(e,11),(d,13),(b,16),(c,16),(c,20)) \\ \end{aligned}$

在程序中，如下图所示的 $T a b l e$ 会首先构造出来。上面我们提过：这个表构造的过程就是记录了在 $S|_\alpha$ 中满足商品 $b$ 与 $\alpha$ 的最后一项之间的时间差位于 $I_i$ 内的那些交易的数量和。（注：这里的 ${\alpha}'$ 就是上面那句话中的 $\alpha$ ）， ${\alpha}'$ 的最后一项是 $(a)$ ， $(a)$ 在交易数据库中出现的位置分别是 $[10 : 1], [10 : 4], [10 : 6], [20 : 7], [30 : 8]$ ，我们依次遍历 $(a)$ 的后缀，以 $((c, 3), (a, 4), (b, 4), (a, 6), (e, 6), (c, 10))$ 为例，计算下时间差，填入到对应的 $I_i$ 中。就可以得到下表：
注意：在一条记录里最多只能出现1个。例如，在 $S i d = 10$ 中 $a,I_1,a)$ 有两次，但是也只能算1条，因为这只是1个记录。

Table	a	b	c	d	e
$I_0$	0	3	0	0	2
$I_1$	1	1	1	1	3
$I_2$	1	0	1	1	1
$I_3$	0	1	3	1	0

上表说明了频繁的元素是 $I_0,b),(I_0,e),(I_1,e),(I_3,c)$ 。将这些元素加入到 $(a)$ 的末尾，生成了4个不同的 ${\alpha}'$ ，分别是 $a,I_0,b),(a,I_0,e),(a,I_1,e),(a,I_3,c)$ 。对于所有的新的不同的 ${\alpha}'$ ，程序再一次被调用。

B-1：
对于 $a,I_0,b)$ ，程序将会调用 $I-PrefixSpan((a,I_0,b),2,S|_{(a,I_0,b)})$ ，其投影数据库 $S|_{(a,I_0,b)}$ 如下所示：
$\begin{aligned} [10:4]\\ &((a,6),(e,6),(c,10)) \\ [20:7]\\ &((e,7),(d,9),(e,9),(c,14),(d,14)) \\ [30:8] \\ &((e,11),(d,13),(b,16),(c,16),(c,20)) \\ \end{aligned}$

$a,I_0,b)$ 出现了3次，其最后一项是 $(b)$ ， $(b)$ 来自于投影数据库 $S|_{(a)}$ 中 $[10 : 4], [20 : 7], [30 : 8]$ ，且 $(b)$ 出现的位置分别是 $[10 : 4], [20 : 7], [30 : 8]$ ，故其投影数据库 $S|_{(a,I_0,b)}$ 如上所示。注意： $S|_{(a,I_0,b)}$ 与 $S|_{(a)}$ 中的 $[10 : 4], [20 : 7], [30 : 8]$ 中的 $4, 7, 8$ 的含义是完全不同的，前者代表了 $b$ 的位置，后者代表了 $a$ 的位置。

它对应的 $T a b l e$ 如下：

Table	a	b	c	d	e
$I_0$	0	0	0	0	1
$I_1$	1	0	0	1	3
$I_2$	0	0	1	1	0
$I_3$	0	1	2	1	0

这里有一个小trick，因此 $a, d$ 在第一个表从来没有频繁元素，因此在以后构造表时也无需再对 $a, d$ 进行计算了。上表仍然计算了 $a, d$ 是想说明这个问题。

我们可以看到，频繁元素是 $I_1,e),(I_3,c)$ 。将这些元素加入到 $a,I_0,b)$ 的末尾，生成了2个不同的 ${\alpha}'$ ，分别是 $a,I_0,b,I_1,e),(a,I_0,b,I_3,c)$ 。对于所有的新的不同的 ${\alpha}'$ ，程序再一次被调用。我们以 $a,I_0,b,I_1,e)$ 举例。

B-1-1：
对于 $a,I_0,b,I_1,e)$ ，程序将会调用 $I-PrefixSpan((a,I_0,b,I_1,e),3,S|_{(a,I_0,b,I_1,e)})$ ，其投影数据库 $S|_{(a,I_0,b,I_1,e)}$ 如下所示：
$\begin{aligned} [10:6]\\ &((a,6),(c,10)) \\ [20:9]\\ &((c,14),(d,14)) \\ [30:11] \\ &((d,13),(b,16),(c,16),(c,20)) \\ \end{aligned}$

$a,I_0,b,I_1,e)$ 出现了3次，其最后一项是 $(e)$ ， $(e)$ 来自于投影数据库 $S|_{(a,I_0,b)}$ 中 $[10 : 4], [20 : 7], [30 : 8]$ ，且 $(e)$ 出现的位置分别是 $[10 : 6], [20 : 9], [30 : 11]$ ，故其投影数据库 $S|_{(a,I_0,b,I_1,e)}$ 如上所示。

它对应的 $T a b l e$ 如下：无 $a, b, d$

Table	c	e
$I_0$	0	0
$I_1$	0	0
$I_2$	3	0
$I_3$	1	0

我们可以看到，频繁元素是 $I_2,c)$ 。将这些元素加入到 $a,I_0,b,I_1,e)$ 的末尾，生成了 ${\alpha}'$ ，是 $a,I_0,b,I_1,e,I_2,c)$ 。对于所有 ${\alpha}'$ ，程序再一次被调用。这里省略了下一步。

B-2：
对于 $a,I_0,e)$ ，程序将会调用 $I-PrefixSpan(( a,I_0,e),2,S|_{( a,I_0,e)})$ ，其投影数据库 $S|_{( a,I_0,e)}$ 如下所示：

$\begin{aligned} [10:6]\\ &((c,10)) \\ [20:7]\\ &((b,7),(d,9),(e,9),(c,14),(d,14)) \\ \end{aligned}$

$a,I_0,e)$ 出现了2次，其最后一项是 $(e)$ ， $(e)$ 来自于投影数据库 $S|_{(a)}$ 中 $[10 : 6], [20 : 7]$ ，且 $(e)$ 出现的位置分别是 $[10 : 6], [20 : 7]$ ，故其投影数据库 $S|_{(a,I_0,e)}$ 如上所示。

同理，它对应的 $T a b l e$ 如下：无 $a, d$

Table	b	c	e
$I_0$	1	0	0
$I_1$	0	0	1
$I_2$	0	1	0
$I_3$	0	1	0

我们可以看到，表中没有频繁元素了，这个分支的递归结束。
B-3：
对于 $a,I_1,e)$ ，程序将会调用 $I-PrefixSpan(( a,I_1,e),2,S|_{( a,I_1,e)})$ ，其投影数据库 $S|_{( a,I_1,e)}$ 如下所示：
$\begin{aligned} [10:6]\\ &((c,10)) \\ [20:9]\\ &((c,14),(d,14)) \\ [30:11] \\ &((d,13),(b,16),(c,16),(c,20)) \\ \end{aligned}$

$a,I_1,e)$ 出现了3次，其最后一项是 $(e)$ ， $(e)$ 来自于投影数据库 $S|_{(a)}$ 中 $[10 : 4], [20 : 7], [30 : 8]$ ，且 $(e)$ 出现的位置分别是 $[10 : 6], [20 : 9], [30 : 11]$ ，故其投影数据库 $S|_{(a,I_1,e)}$ 如上所示。

同理，它对应的 $T a b l e$ 如下：无 $a, d$

Table	b	c
$I_0$	0	0
$I_1$	0	0
$I_2$	1	3
$I_3$	0	1

我们可以看到，频繁元素是 $I_2,c)$ 。将这些元素加入到 $a,I_1,e)$ 的末尾，生成了1个 ${\alpha}'$ ，是 $a,I_1,e,I_2,c)$ 。对于所有的新的不同的 ${\alpha}'$ ，程序再一次被调用。这里，我们再扩展一步。

B-3-1：
对于 $a,I_1,e,I_2,c)$ ，程序将会调用 $I-PrefixSpan((a,I_1,e,I_2,c),3,S|_{(a,I_1,e,I_2,c)})$ ，其投影数据库 $S|_{(a,I_1,e,I_2,c)}$ 如下所示：
$\begin{aligned} [10:10]\\ & \\ [20:14]\\ &((d,14)) \\ [30:16] \\ &((c,20)) \\ \end{aligned}$

$a,I_1,e,I_2,c)$ 出现了3次，其最后一项是 $(c)$ ， $(c)$ 来自于投影数据库 $S|_{(a,I_1,e)}$ 中 $[10 : 6], [20 : 9], [30 : 11]$ ，且 $(c)$ 出现的位置分别是 $[10 : 10], [20 : 14], [30 : 16]$ ，故其投影数据库 $S|_{(a,I_1,e,I_2,c)}$ 如上所示。

同理，它对应的 $T a b l e$ 如下：无 $a, b, d, e$

Table	c
$I_0$	0
$I_1$	0
$I_2$	1
$I_3$	0

我们可以看到，表中没有频繁元素了，这个分支的递归结束。
B-4：
对于 $a,I_3,c)$ ，程序将会调用 $I-PrefixSpan((a,I_3,c),2,S|_{(a,I_3,c)})$ ，其投影数据库 $S|_{(a,I_3,c)}$ 如下所示：
$\begin{aligned} [10:10]\\ & \\ [20:14]\\ &((d,14)) \\ [30:16] \\ &((c,20)) \\ \end{aligned}$

$a,I_3,c)$ 出现了3次，其最后一项是 $(c)$ ， $(c)$ 来自于投影数据库 $S|_{(a)}$ 中 $[10 : 1], [20 : 7], [30 : 8]$ ，且 $(c)$ 出现的位置分别是 $[10 : 10], [20 : 14], [30 : 16]$ ，故其投影数据库 $S|_{(a,I_3,c)}$ 如上所示。

同理，它对应的 $T a b l e$ 如下：无 $a, d$

Table	b	c	e
$I_0$	0	0	0
$I_1$	0	0	0
$I_2$	0	1	0
$I_3$	0	0	0

我们可以看到，表中没有频繁元素了，这个分支的递归结束。

以 ${\alpha}'=(a)$ 开头的所有的符合支持度的频繁子序列如下：
$a,I_0,b)\\ (a,I_0,b,I_1,e)\\ (a,I_0,b,I_1,e,I_2,c)\\ (a,I_0,b,I_3,c)\\ (a,I_0,e)\\ (a,I_1,a)\\ (a,I_1,a,I_2,c)\\ (a,I_3,c)$
上述即是一个可以说明算法流程的例子。

以 ${\alpha}'=(b)$ , ${\alpha}'=(c)$ , ${\alpha}'=(d)$ , ${\alpha}'=(e)$ 开头的带时间间隔的频繁子序列挖掘以上述的过程同理，这里省略。

我们可以总结一下递归停止的条件：分支下不再存在频繁元素，即构造出的 $T a b l e$ 不再存在频繁元素，则递归结束。至于其它的停止条件我得再想想，感觉这个程序得实现还是有点难度的。

另外，我感觉时间复杂度与时间间隔集合 $T I$ 的设定关系很大。

参考文献

【1】Discovering time-interval sequential patterns in sequence databases

anshuai_aw1

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
关联规则（三）：带时间间隔的序列模式挖掘

序列模式挖掘，即是在序列数据库中挖掘出频繁子序列，是一个具有广泛应用的重要的数据挖掘问题。PrefixSpan 算法可以有效地挖掘出大规模数据的频繁子序列，然而，它并没有项集之间的时间间隔。因此，本文提出了一种带时间间隔的序列模式挖掘算法，我们称其为I-PrefixSpan算法。一、引言带时间间隔的序列模式可以提供比传统序列模式更有价值的信息。我们以零售业务为例：在带时间间隔的序列模式的帮助下...
复制链接

扫一扫

专栏目录