Top-k高效用项集挖掘_学习笔记(二) TKU

最新推荐文章于 2021-08-07 11:55:21 发布

Erpim

最新推荐文章于 2021-08-07 11:55:21 发布

阅读量1.3k

点赞数 2

分类专栏：关联规则文章标签： top-k 频繁项集挖掘高效用 TKU

本文链接：https://blog.csdn.net/qq_35414569/article/details/79991520

版权

关联规则专栏收录该内容

4 篇文章 1 订阅

订阅专栏

前言

本篇博客出于学习交流目的，主要是用来记录自己学习后的理解，过程中遇到的问题和心路历程，方便之后回顾。过程中可能引用其他大牛的博客，文末会给出相应链接，侵删！

REMARK：本人菜鸟一枚，如有理解错误还望大家能够指出，相互交流。也是第一次以博客的形式记录，文笔烂到自己都看不下去，哈哈哈

这篇学习笔记关于一种高效Top-k的频繁效用项集挖掘算法。
参考文献：Efficient Algorithms for Mining Top-K High Utility Itemsets

本篇博客介绍论文中的第一种 two-phase算法TKU，一些必要的基础概念和定义在Top-k高效用项集挖掘学习笔记(一) 基础概念中给出，另一种 one-phase 算法在 Top-k高效用项集挖掘学习笔记(三) TKO 中详细记录，请手动跳转。

正文

$TKU$ (mining Top-k Utility itemsets)算法，下面先介绍基础算法 $TKU_{Base}$ ，然后再介绍 $TKU$ 算法， $TKU$ 算法实在 $TKU_{Base}$ 基础上加了一些优化策略（优化策略：PE、NU、MD、MC、SE ）。

$TKU_{Base}$ ——基础算法

$TKU_{Base}$ 作为 $UP-Growth$ 算法的一种扩展，依然采用了 $UP-Tree$ 结构。算法包括三部分：A、 $UP-Tree$ 的构建；B、生成潜在Top-k 高效用项集potential top-k high utility itemsets (PKHUIs) ；C、从PKHUIs中识别Top-k 高效用项集（Top-k HUIs）；

A、UP-Tree 的构建

UP-Tree的每个节点 $N$ 都有五个要素: 节点名 $N.name$ ；节点支持数 $N.count$ ；节点效用值 $N.nu$ ；
节点的父节点指针；指向具有和节点同样 $item\ name$ 的节点指针 $N.hlink$ ；

Header table用来促进UP-Tree的遍历，包括项名 $item\ name$ ，评估效用值 $estimated\ utility\ value$ ，链接指针link三个部分。链接指针指向树中对应 $item\ name$ 的第一个节点。

还是看原文的例子，我们可以得到如上图所示的Header table和UP-Tree，先看个结构，具体数值下面再说明。

构建UP-Tree我们需要扫描两次原始数据集，第一次计算每个item的TWU值，依原文的例子我们可以得到如下表所示：

然后，按降序建Header table就得到FIg.1左边那个图例了。第二次扫描数据集，交易数据会重新组织，并插入UP-Tree中。

具体构建步骤，首先创建根节点R，交易记录中的item按TWU值进行降序排列。变化后的交易记录被称为 $reorganized\ transaction$ （ $T_r^，$ ），对应的效用值称为 $Reorganized \ Transaction\ Utility$ ( RTU ),RTU( $T_r^，$ ) 。把遍历每个重构后的交易 $T_r^，=\left \{ I_{1},I_{2},\cdots ,I_{M} \right \}\left ( I_{j}\in I^{*} ,1\leq j\leq M\right )$ 的方法称为 $Insert\_Reorganized\_Transaction(N, I _j )$ 并运用 $Discarding \_Global\_Node\_utilities (DGN)$ 策略将其插入UP-Tree（来自第25篇参考文献）。

$Insert\_Reorganized\_Transaction(N, I _j )$ 主要步骤如下图：

输入是节点 N 和 $T_r^，$ 中的项 $I_{j}\left (I_{j}\in T_r^， ,1\leq j\leq M\right )$ ；
Step1.如果节点有孩子的item name 与 $I_{j}$ 的一致，那么子节点 $ChN$ 的支持数 $ChN.count$ 加1；否则新建子节点，并将其支持数 $ChN.count$ 置为1，并设效用值为0；
Step2.更新子节点的效用值，用公式 $ChN.nu+RTU\left ( T_r^{,}\right )-\sum ^M_{i=j+1}EU\left ( I_{i}, T_r^{,} \right )$ 计算，其中， $I_{j}\in T_r^{,} ,1\leq j\leq M$ ，换句话说就是算到目前节点的效用值累积和， $RTU\left ( T_r^{,}\right )=TU\left (T_r\right )$ ；
Step3.进入下一个item的插入，调用 $Insert\_Reorganized\_Transaction(ChN, I _{j+1} )$ ；

当 $abs\_min\_util=0$ 时，构建得到的树机构如FIg.1右侧所示。

B、生成潜在Top-k 高效用项集potential top-k high utility itemsets (PKHUIs) ；

这里引入一个边界最小效用阈值，记作 $min\_util_{Border}$ ，初始时是 $0$ ，随着PKHUIs的生成动态更新；
引理1.给定一组项集 $P=\left \langle X_{1},X_{2}, \cdots X_{M}\right \rangle$ ， $M\geq k$ ； $X_{i}$ 表示 $P$ 中的第 $i$ 个项集，对所有 $j$ 大于 $i$ 的情况下有 $EU\left ( X_{i} \right )\geq EU\left ( X_{j} \right )> 0$ ；如果存在 $EU\left ( \gamma \right )< EU\left ( X_{k} \right )$ ，即比第k个效用值小，那 $\gamma$ 一定不是top-k。

引理2.给定一组项集 $P=\left \langle X_{1},X_{2}, \cdots X_{M}\right \rangle$ ， $M\geq k$ ； $X_{i}$ 表示 $P$ 中的第 $i$ 个项集，对所有 $j$ 大于 $i$ 的情况下有 $EU\left ( X_{i} \right )\geq EU\left ( X_{j} \right )> 0$ ；如果有 $\delta_{p}=EU\left ( X_{k} \right )$ ，那么 $f_{HUI}\left ( \mathcal{D},\delta ^* \right )\subseteq f_{HUI}\left ( \mathcal{D},\delta_{p} \right )$ ；根据定义11， $\delta ^*$ 是当前|KH|中最大的第k个效用值，而 $\delta_{p}$ 是P中最大的第k个效用值， $\delta ^* \geq \delta_{p}$ ，得证。

还是以之前那个数据集为例，假设我们的 $k=4$ ， $abs\_min\_util=0$ ，P是一项集 $\left \{ \left \{ A \right \}: 20,\left \{ D \right \}: 20,\left \{ B \right \}: 16,\left \{ E \right \}: 15,\left \{ C \right \}: 13,\left \{ G \right \}: 7,\left \{ F \right \}: 5 \right \}$ ；则 $\left \{ C \right \},\left \{ G \right \},\left \{ F \right \}$ 都不是top-k，于是我们就可以根据上诉引理更新 $abs\_min\_util=min\_util_{Border}$ ，这时 $abs\_min\_util$ 被更新成15。

接着考虑PKHUIs的效用值下界

Definition 12. 项的最小效用值 (Minimum utility of an item)： $miu\left ( I \right )$

m i u (I) = m i n {E U (I, T r) | T r \in D a n d r \in g (I)}

$miu\left ( I \right )=min\left \{ EU\left ( I,T_{r} \right ) | T_{r}\in \mathcal{D}\ and\ r\in g\left ( I \right ) \right \}$ 就是项在数据集中最小的EU值；

Definition 13. 项集的最小效用值 (Minimum utility of an itemset)： $MIU\left ( X \right )$

M I U (X) = (\sum i = 1 M m i u (I i)) \times S C (X)

$MIU\left ( X \right )=\left (\sum ^M_{i=1}miu\left ( I_i \right )\right )\times SC\left ( X \right )$ 为了明确公式含义，我加了大括号，该式就是把项集 X中每个项的最小效用值相加后再乘以项集在交易集中出现的交易数（几条交易包含了该项就是几）。

依旧是之前的那个例子。
$miu\left (\left \{ B \right \} \right )=min\left \{ EU\left ( \left \{ B \right \},T{_{3}}^{,} \right ),EU\left ( \left \{ B \right \},T{_{4}}^{,} \right ),EU\left ( \left \{ B \right \},T{_{5}}^{,} \right ) \right \}=min\left \{ 4,8,4 \right \}=4$
$MIU\left ( \left \{ BC \right \} \right )=\left [ min\left ( \left \{ B \right \} \right ) +min\left ( \left \{C \right \} \right ) \right ]\times SC\left ( \left \{ BC \right \} \right )=\left [ 4+1 \right ]\times 3=15$

引理3.（原文貌似有错误，按个人理解改的，欢迎讨论）给定一组项集 $C=\left \langle X_{1},X_{2}, \cdots X_{M}\right \rangle$ ， $M\geq k$ ； $X_{i}$ 表示 $C$ 中的第 $i$ 个项集，并且对所有 $j$ 大于 $i$ 的情况下有 $MIU\left ( X_{i} \right ) \geq MIU\left ( X_{j} \right )>0$ ，也 $X_{i}$ 就是第 $i$ 大的MIU值的项集；
如果存在项集 $\gamma$ 使得 $TWU\left ( \gamma \right )< \delta _{MC}=min\left \{ MIU\left ( X_{i}| X_{i}\in C ,1\leq i\leq k\right ) \right \}$ ，那么项集 $\gamma$ 就不是top-k HUI；
简单说明，根据最原始定义8我们可以得到 $EU\left ( \gamma \right )\leq TWU\left ( \gamma \right )$ ,然后我们又已知 $0<EU\left ( \gamma \right )\leq TWU\left ( \gamma \right )< \delta _{MC}\leq MIU\left ( X_{i} \right )\leq EU\left ( X_{i} \right )$ ,得证。

引理4.（原文貌似有错误，按个人理解改的，欢迎讨论）给定一组项集 $C=\left \langle X_{1},X_{2}, \cdots X_{M}\right \rangle$ ， $M\geq k$ ； $X_{i}$ 表示 $C$ 中的第 $i$ 个项集，并且对所有 $j$ 大于 $i$ 的情况下有 $MIU\left ( X_{i} \right ) \geq MIU\left ( X_{j} \right )>0$ ，也 $X_{i}$ 就是第 $i$ 大的MIU值的项集；
如果有 $\delta_{MC}=MIU\left ( X_{k} \right )$ ，那么 $f_{HUI}\left ( \mathcal{D},\delta ^* \right )\subseteq f_{HUI}\left ( \mathcal{D},\delta_{MC} \right )$ ；同引理2证明。

引理5.对任意项集 $X$ ，如果 $TWU\left (X \right )<abs\_min\_util \leq \delta ^{*}$ ，那么 $X$ 及其超集都不是top-k HUIs。因为 $EU\left (X \right )\leq TWU\left ( X \right )$ ，并且对超集 $X^,$ ，有 $EU\left (X^, \right )\leq TWU\left (X^, \right ) \leq TWU\left ( X \right )$ ，得证。

Definition 14. 项的最大效用值(Maximum utility of an item): $mau(I)$
这个和定义12类似，只不过求最大，还是之前的例子。原文给了计算结果如下：

但是这个结果好像是有问题的，讲道理 $mau\left ( \left \{ A \right \} \right )=10，mau\left ( \left \{ C \right \} \right )=6，mau\left ( \left \{ D \right \} \right )=12$ ，欢迎大家一起讨论下，是不是我理解错了。

Definition 15. 项集的最大效用 (Maximum utility of an itemset)： $MAU(X)$

M A U (X) = (\sum i = 1 M m a u (I i)) \times S C (X)

$MAU\left ( X \right )=\left (\sum ^M_{i=1}mau\left ( I_i \right )\right )\times SC\left ( X \right )$ 和定义13类似，就不再解释了。

引理6.对任意项集 $X$ ，如果 $MAU\left (X \right )<abs\_min\_util \leq \delta ^{*}$ ，那么 $X$ 不是top-k HUIs。因为 $MAU$ 可以看做是 $EU（X）$ 的一个上界。

引理7.对于前面那么多变量，排个序， $MIU\left ( X \right )\leq EU\left ( X \right )\leq min\left \{ MAU\left ( X \right ), TWU\left ( X \right )\right \}$

Definition 16 . 候选 top-k高效用项集(Potential top-k high utility itemset)：PKHUI
项集X称为PKHUI就是 $TWU\left ( X \right )$ 和 $MAU\left ( X \right )$ 不小于 $min\_util_{Border}$ 。

Property 3.在UP-Growth中每个候选项集是由ESTU（X）评估生成，主要利用一下性质：
（1） $MIU\left ( X \right )\leq EU\left ( X \right )\leq ESTU\left ( X \right ) \leq TWU\left ( X \right )$ ；
（2） $EU\left ( X \right )\leq min\left \{ MAU\left ( X \right ), ESTU\left ( X \right )\right \}$ ；
（3）如果 $ESTU\left ( X \right )<abs\_min\_util$ ，和 $X$ 相关的项集都是低效用的。

根据前面这么多的定理和特性，具体算法伪代码如下：

就是不断更新 $min\_util_{Border}$ ，然后不断判断可能的项集作为PKHUI。具体实现中，原文利用了一些比较高效的数据结构，有想法的可以去看看。

策略1：MC
利用MIUs提高阈值。

C、从PKHUIs中识别Top-k 高效用项集（Top-k HUIs）；
这个过程也就是phase II：通过扫描原始数据集计算PKHUIs的效用值，去获取top-k个HUIs，只考虑那些评估效用值不低于 $min\_util_{Border}$ 的项集。

$TKU$ ——最终算法

TKU算法是在 $TKU_{Base}$ 的基础上又加入了四个优化策略（PE、NU、MD、SE）来帮助高效提高 $min\_util_{Border}$

策略2：PE（Pre-Evaluation Step）
主要思想，在构建树之前先将 $min\_util_{Border}$ 从0提高一些，这样帮助节省存储空间和时间，提早剪枝掉一些不怎么有前景的项。

PE在第一次数据库扫描的时候用了一个Pre-Evaluation Matrix（PEM）结构来存储所有确定的2项集对应的效用值，如下图所示。

还是用之前的例子，当 $T_1=\left \{ \left ( A,1 \right ),\left ( C,1 \right ),\left ( D,1 \right ) \right \}$ 被遍历的时候 $PEM\left [A \right ]\left [ C\right ]$ 和 $PEM\left [A \right ]\left [ D\right ]$ 将被 $EU\left ( \left \{ AC \right \}, T_1\right )=6$ 和 $EU\left ( \left \{ AD \right \}, T_1\right )=7$ 提示，之后每次都叠加。上图是遍历过程中某一时刻的截图。如果k被设置为4，那么 $min\_util_{Border}$ 将被更新为18。

策略3：NU（Raising the Threshold by Node Utilities）
该策略被用在UP-tree的构建过程中，策略基于以下引理

引理8.设 $PATH=\left \langle N_{1},N_{2},\cdots ,N_{M}, R\right \rangle$ 是UP-Tree中节点 $N_{1}$ 到根节点 $R$ 的一个路径，并且 $I_{i}\in I^{*}$ 是 $N_{i}.item$ ， $1\leq i\leq M$ ； $PATH$ 代表数据库中的一个唯一项集 $X=\left \langle I_{1},I_{2},\cdots ,I_{M}\right \rangle$ ； $N_{1}$ 的效用值是 $X$ 效用值的一个下界。

引理9.如果UP-Tree中有M个节点，那么至少M个互不相同的项集的效用值大于0。

引理10.设 $SetNode=\left \langle N_{1},N_{2},\cdots ,N_{M}, R\right \rangle$ 是包含UP-Tree（ $M\geq k$ ）中所有节点的有序集合。 $N_{i}$ 是第 $i$ 个节点，并且对于所有 $i<j$ ， $N_{i}.nu \geq N_{i}.nu >0$ ；如果 $\delta _{NU}=N_{k}.nu$ ，有 $f_{HUI}\left ( \mathcal{D},\delta ^* \right )\subseteq f_{HUI}\left ( \mathcal{D},\delta_{NU} \right )$ ；同引理2证明。

还是之前那个例子：设 $k=4$ ；当UP-Tree中插入 $T_1^，=\left \{ \left ( C,1 \right ), \left ( A,1 \right ), \left ( D,1 \right )\right \}$ ，生成三个节点，并且 $N_{\left \{ C \right \}}.nu=1$ , $N_{\left \{ A\right \}}.nu=6$ , $N_{\left \{ D \right \}}.nu=8$ ,分别表示 $\left \{ C \right \},\left \{ AC \right \},\left \{ DAC \right \}$ 效用值下界；当UP-Tree中插入 $T_1^，=\left \{ \left ( C,6 \right ),\left ( E,2 \right ), \left ( A,2 \right ), \left ( G,5 \right )\right \}$ ，节点数大于4，所以可以利用引理10提高 $min\_util_{Border}$ 。

策略3就是利用上诉方法利用 $NU_{k-th}$ 来更新 $min\_util_{Border}$ 。

策略4： MD (raising the threshold by MIU values of Descendents)
这个策略应用在UP-Tree构建之后，PKHUIs生成之前。 $N_{\alpha }$ 表示树种的一个节点， $\alpha$ 表示item，算法遍历 $N_{\alpha }$ 的子树，对每个后继节点 $N_{\beta }$ 计算 $\left \{ \alpha \cup \beta \right \}$ 的MIU值；如果第 $k$ 大的 $MIU$ 值大于 $min\_util_{Border}$ ，用这个值来更新 $min\_util_{Border}$ 。

以Fig.2中的UP-Tree为例，依旧设 $k=4$ ；对节点 $N_{C }$ ，对后代 $N_{A }$ ，我们可以计算得到 $MIU\left ( \left \{ AC \right \} \right )=\left [ min\left ( \left \{ A \right \} \right )+min\left ( \left \{ C \right \} \right ) \right ]\times SC\left ( \left \{ AC \right \} \right )=\left [ 5+1 \right ]\times 3=18$ （原文好像有点错误）；对其每个子节点计算得到如上表所示结果， $N_{G }$ 的MIU值应该是6（原文好像有点错误）。

策略5：SE (raising the thresh-old by Sorting and calculating Exact utility of candidates)
这个策略用在TKU的phase II；主要思想是利用一个堆结构存储候选项集，并优先考虑效用值大的项集，因为这样可以加快 $min\_util_{Border}$ 的增长，这样可以减少不必要的遍历和时间，效用值评估方法可以是 $min\left \{ ESTU\left ( X \right ), MAU\left ( X \right )\right \}$ 等。

总结

作者在多个不同稀疏程度的数据集上作了对比， $TKU$ 比 $TKU_{Base}$ 速度上要快很多，因为加入了许多优化策略。原文还对比了内存消耗，可以看原文。

这篇博客介绍了一种two phase的Top-k高效用项集挖掘方法——TKU，内容实在太多，到最后都快变成英文翻译了，算法TKO将在下一篇中给出。

Erpim

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Top-k高效用项集挖掘_学习笔记(二) TKU

前言本篇博客出于学习交流目的，主要是用来记录自己学习后的理解，过程中遇到的问题和心路历程，方便之后回顾。过程中可能引用其他大牛的博客，文末会给出相应链接，侵删！ REMARK：本人菜鸟一枚，如有理解错误还望大家能够指出，相互交流。也是第一次以博客的形式记录，文笔烂到自己都看不下去，哈哈哈这篇学习笔记关于一种高效Top-k的频繁效用项集挖掘算法。参考文献：Effic...
复制链接

扫一扫