Top-k高效用项集挖掘_学习笔记(三) TKO

最新推荐文章于 2024-09-12 11:36:11 发布

Erpim

最新推荐文章于 2024-09-12 11:36:11 发布

阅读量1.2k

点赞数

分类专栏：关联规则文章标签： Top-k 高效用频繁项集 TKO

本文链接：https://blog.csdn.net/qq_35414569/article/details/80053130

版权

关联规则专栏收录该内容

4 篇文章 1 订阅

订阅专栏

前言

本篇博客出于学习交流目的，主要是用来记录自己学习后的理解，过程中遇到的问题和心路历程，方便之后回顾。过程中可能引用其他大牛的博客，文末会给出相应链接，侵删！

REMARK：本人菜鸟一枚，如有理解错误还望大家能够指出，相互交流。也是第一次以博客的形式记录，文笔烂到自己都看不下去，哈哈哈

这篇学习笔记关于一种高效Top-k的频繁效用项集挖掘算法。
参考文献：Efficient Algorithms for Mining Top-K High Utility Itemsets

本篇博客介绍论文中的第二种 one-phase算法TKO，一些必要的基础概念和定义在Top-k高效用项集挖掘学习笔记(一) 基础概念中给出，另一种 two-phase 算法在 Top-k高效用项集挖掘学习笔记(二) TKU 中详细记录，请手动跳转。

正文

TKO算法是这篇文章提出的第二种算法，他只需要一个过程就可以得到结果。这个算法基于HUI-Miner算法以及它的utility-list 结构，TKO的项集从这个utility-list中生成而不扫描原始数据库。本篇结构还是先说基础算法 $TKO_{Base}$ ，然后再说最终版本，即在基础算法上加优化策略。（算法中包括 $RUC、RUZ、EPB$ 优化策略）

utility-list 结构

开始算法前，先简单了解一下utility-list 结构。

项的utility-list 被称作 initial utility-lists，可以通过扫描两次数据库得到。第一次遍历时计算项的TWU值和效用值；第二次扫描数据库时每个交易记录中的项按TWU值大小排序，并且每个项的 utility-list 被创建。

如表7所示，即交易记录中item按TWU值从小到大排序后的结果。

Fig.4展示了各项的utility-lists。每个item都由一个或多个元组组成，即有哪些交易记录包含这些项；元组由三部分组成（Tid，内部效用值iutil，剩余效用值rutil）；剩余效用值就是这个item后面的效用值之和，具体看下面的定义。

Definition 17. 前驱和后继(Precede and succeed)：
按照TWU值从小到大排列项， $I_{i}\prec I_{j}$ 表示 $I_{i}$ 在 $I_{j}$ 之前，即前驱，当且仅当 $TWU\left ( I_{i}\right )$ 大于或等于 $TWU\left ( I_{j}\right )$ ，并且 $I_{i}$ 按字典序比 $I_{j}$ 小；否则称为后继，记作 $I_{i} \succ I_{j}$ (原文符号标记好像有误)。

Definition 18. 项集的级联(Concatenation of an itemset)：
有两个项集 $X=\left \{ x_{1},x_{2}, \cdots ,x_{u}\right \}\left ( x_{i}\in I^{*},1\leq i\leq u \right )$ 和 $Y=\left \{ y_{1},y_{2}, \cdots ,y_{v}\right \}\left ( y_{j}\in I^{*},1\leq j\leq v \right )$ ，当且仅当 $X\subset Y$ 并且 $Y$ 的每个 item $y_{i}\notin X$ 都是X所有 item 的后继， $Y$ 称为 $X$ 的级联。

Definition 19. (Appear after)：
给定优先集合 $I^{*}=\left \{ I_{1}, I_{2},\cdots ,I_{m}\right \}$ ，和顺序 $I_{1}\prec I_{2} \prec\cdots \prec I_{m}$ ；假设项集和交易记录中的项都按这个顺序排序好了，在一个交易记录 $T_{r}$ 中，一个项 $I_{j}\in I^{*}$ 在项集 $X=\left \{ x_{1},x_{2}, \cdots ,x_{L}\right \}$ 之后发生，当且仅当 $I_{j}\in T_{r}$ 并且 $x_{1}\prec x_{2} \prec\cdots \prec x_{L} \prec I_{j}$ ； $T_{r}$ 中所有出现在 $X$ 之后的项集记作 $T_{r}/X$ 。

Definition 20. 交易记录剩余效用值(Remaining utility of an itemset in a transaction)： $RU\left ( X,T_{r} \right )$

R U (X, T r) = \sum I i \in T r / X E U (I i, T r)

$RU\left ( X,T_{r} \right )=\sum _{I_{i}\in T_{r}/X}EU\left ( I_{i}, T_{r} \right )$
Definition 21. 数据库中的剩余效用值(Remaining utility of an itemset in a database)：

RU(X) R U ( X ) $RU\left ( X \right )$

R U (X) = \sum T r \in D R U (X, T r)

$RU\left ( X \right )=\sum _{T_{r}\in D}RU\left ( X,T_{r} \right )$
Definition 22. 效用列表结构(Utility-list structure)：

ul(X) u l ( X ) $ul\left ( X \right )$
项集X的Utility-list记作

ul(X) u l ( X ) $ul\left ( X \right )$ ，里头存着若干三元组，有几个交易记录包含该项集就有几个元组，每个元组

⟨r,EU(X,Tr),RU(X,Tr)⟩ ⟨ r , E U ( X , T r ) , R U ( X , T r ) ⟩ $\left \langle r,EU\left ( X,T_{r} \right ),RU\left ( X,T_{r} \right ) \right \rangle$ ，即交易记录的序号，X在交易记录上的效用值，X在交易记录上的剩余效用值。

以表7的数据集为例， $\left \{ D \right \}$ 在 $T_{1}$ 上的剩余效用值 $RU\left ( \left \{ D \right \},T_{1} \right )=EU\left ( \left \{ A \right \}, T_{1} \right )+EU\left ( \left \{ C \right \}, T_{1} \right )$ ； $\left \{ D \right \}$ 在整个数据集上的剩余效用值 $RU\left ( \left \{ D \right \}\right )=RU\left ( \left \{ D \right \},T_{1} \right )+RU\left ( \left \{ D \right \},T_{3} \right )+RU\left ( \left \{ D \right \},T_{4} \right )=（6+13+14）=33$ ； $\left \{ DE \right \}$ 在整个数据集上的剩余效用值 $RU\left ( \left \{ DE \right \}\right )=RU\left ( \left \{ DE \right \},T_{3} \right )+RU\left ( \left \{ DE \right \},T_{4} \right )=（1+3）=4$ 。

Property 4.在项集X的Utility-list中，所有元组第二列（ $iutil$ ）的结果相加即X的效用值。

Property 5.有项集 $X$ 和级联项集 $Y\supset X$ ，如果把元组第二列（ $iutil$ ）和第三列（ $rutil$ ）全部求和的效用值小于阈值 $\delta$ ，那么 $Y$ 的效用值也小于 $\delta$ 。

$Y$ 是 $X$ 级联，根据定义18， $Y$ 中多的项一定排在 $X$ 之后，而 $X$ 的 $iutil$ 和 $rutil$ 的累加和一定大于等于 $Y$ 的 $iutil$ 和 $rutil$ 的累加和，根据 $Property \ 4$ 所以一定大于Y的效用值。

$TKO_{Base}$ 算法——基础算法

$TKO_{Base}$ 输入参数k和一个数据集 $\mathcal{D}$ ； $TKO_{Base}$ 开始时设置 $min\_util_{Border}=0$ ，并且创建一个小堆结构 $TopK-CI-List$ 来存储过程中的top-k $HUIs$ ;算法扫描两边数据库创建initial utility-lists $\phi -ULs$ ；然后用Topk-HUI-Search 算法（基于结合RUC：Raising threshold byUtility of Candidates和HUI-Miner算法，出自参考论文14）去挖掘搜索空间中的top-k HUI；算法不断更新 $TopK-CI-List$ 中的top-k $HUIs$ ，并利用列表中的信息更新 $min\_util_{Border}$ ；算法结束时， $TopK-CI-List$ 中保存的即为top-k $HUIs$ 完整解集。

对于每个搜索过程产生的L-项集 $X=\left \{ x_{1},x_{2},\cdots ,x_{L} \right \}$ ，如果都不小于 $min\_util_{Border}$ ，那么利用RUC策略来更新 $min\_util_{Border}$ 的值。RUC就是把X加入 $TopK-CI-List$ 中，然后 $min\_util_{Border}$ 更新为第k大EU值项集的阈值，把低于 $min\_util_{Border}$ 的项集从 $TopK-CI-List$ 中删去，保证 $TopK-CI-List$ 中只有top-k个。

算法伪代码如下图所示：

比较项集 $X$ 的 $iutil$ 和 $rutil$ 的累加和与 $min\_util_{Border}$ 大小，利用Property 5剪枝（第六行）； $Class\left [ X \right ]$ 和 $ULS\left [ X \right ]$ 分别储存项集级联以及他们的 utility-lists（第七行）；候选项集 $Z=X\cup Y$ ，并创建Z的utility-lists $ul\left ( Z \right )$ ，之后就是不断迭代的过程，直到没有候选项集生成时停止。

策略6：RUC（Raising the threshold by the Utilities of Can-didates）
这个策略可以用于任何one-phace依赖效用值建立的算法。该策略用 $TopK-CI-List$ 结构保存top-k $HUIs$ ，并把项集按降序排列。最初 $TopK-CI-List$ 为空，把新项集X加入 $TopK-CI-List$ 中，然后 $min\_util_{Border}$ 更新为第k大EU值项集的阈值，把低于 $min\_util_{Border}$ 的项集从 $TopK-CI-List$ 中删去，保证 $TopK-CI-List$ 中只有top-k个。

当给定两个项集 $X$ 和 $Y$ 以及他们的前缀 $P$ ，在Topk-HUI-Search 算法过程中，项集 $Z=X\cup Y$ 的utility-lists $ul\left ( Z \right )$ 由下结构过程生成，其中包括两种情况：

CAES1：假设有一项集 $X=\left \{ x_{1} \right \}$ 和 $Y=\left \{ y_{1} \right \}$ ，并且 $x_{1}\prec y_{1}$ 。让 $Z=X\cup Y=\left \{ x_{1} ，y_{1} \right \}$ 是由X级联 $y_{1}$ 生成的二项集。utility-lists $ul\left ( X \right )$ 和utility-lists $ul\left ( Y \right )$ 初始化的时候就被创建了，而utility-lists $ul\left ( Z \right )$ 是通过下面的方法得到。包含项集Z的交易记录记为 $T_{r}$ ，在utility-lists $ul\left ( Z \right )$ 中创建元组 $\left \langle T_{r},EU\left ( Z,T_{r} \right ),RU\left ( Z,T_{r} \right ) \right \rangle$ ，其中 $EU\left ( Z,T_{r} \right )=EU\left ( x_{1} ,T_{r} \right )+EU\left ( y_{1},T_{r} \right )$ ， $RU\left ( Z,T_{r} \right )=EU\left ( y_{1},T_{r} \right )$

CAES2：假设有L-1项集 $X=\left \{ x_{1}，x_{2}，\cdots ，x_{L-1} \right \}$ 和 $Y=\left \{ y_{1}，y_{2}，\cdots ，y_{L-1} \right \}$ （ $L\geq 2$ ），有 $x_{i}=y_{i} \left ( 1\leq i\leq L-1 \right )$ 以及 $x_{L-1}\prec y_{L-1}$ 。让 $Z=X\cup Y=\left \{ x_{1}，x_{2}，\cdots ，x_{L-1} ，y_{L-1} \right \}$ 是由X级联 $y_{L-1}$ 生成的L项集；让 $P=X\cap Y=\left \{ x_{1}，x_{2}，\cdots ，x_{L-2} \right \}$ 是 $X$ 和 $Y$ 的共同前缀，给出utility-lists $ul\left ( X \right )$ ， $ul\left ( Y \right )$ 和 $ul\left (P \right )$ ，而utility-lists $ul\left ( Z \right )$ 是通过下面的方法得到。
包含项集Z的交易记录记为 $T_{r}$ ，在utility-lists $ul\left ( Z \right )$ 中创建元组 $\left \langle T_{r},EU\left ( Z,T_{r} \right ),RU\left ( Z,T_{r} \right ) \right \rangle$ ，其中 $EU\left ( Z,T_{r} \right )=\left [ EU \left ( X,T_{r} \right ) +EU\left ( Y,T_{r} \right ) \right ]-EU\left ( P,T_{r} \right )$ ， $RU\left ( Z,T_{r} \right )=EU\left ( Y,T_{r} \right )$ 。

$TKO$ 算法——最终算法

将给出四种改进策略用于 $TKO_{Base}$ 算法就是 $TKO$ 算法，前两种是PE和DGU，这两个在前一个算法里以及说明了。下面说另外两种改进策略。

Definition 23. (Z-element)：当一个元素的剩余效用值是0的时候被称为Z-element，否则被称为NZ-element。在X的效用列表中的所有Z-element集合记作 $ZE\left ( X \right )$ 。

例如， $\left \{ DBC \right \}$ 有两个Z-element， $ZE\left ( \left \{ DBC \right \} \right )=\left \{ \left \langle T_{3},17,0 \right \rangle ,\left \langle T_{4},17,0 \right \rangle\right \}$ 。

Property 6. $NZEU\left ( X \right )$ 是项集 $X$ 的所有NZ-element的第二列（iutil）的和，如果 $\left [ NZEU\left ( X \right )+RU\left ( X \right ) \right ]< min\_util_{Border}$ ，那么所有项集 $X$ 的级联都不是top-k HUIs。

策略7：RUZ（Reducing estimated utility values by using Z-elements）
该策略用在用于Topk-HUI-Search 算法生成候选项集过程中，根据Property 6，我们没必要生成 $\left [ NZEU\left ( X \right )+RU\left ( X \right ) \right ]$ 小于 $min\_util_{Border}$ 的项。

策略8：EPB（Exploring the most Promising Branches first）
该策略的目标是优先生成那些高效用值的候选项集，利用思想总是先扩展拥有最高预计效用值的项，这样更可能得到高效用值，因为这样可以更早的提早 $min\_util_{Border}$ ，就可以剪枝更多的搜索空间。