高效用项集挖掘_学习笔记 (二)基本概念定理和论文解读

最新推荐文章于 2024-05-07 14:03:43 发布

没有人比我更懂暴力算法

最新推荐文章于 2024-05-07 14:03:43 发布

阅读量659

点赞数

分类专栏：数据挖掘文章标签：大数据其他算法数据结构数据挖掘

本文链接：https://blog.csdn.net/qq_42990803/article/details/108473116

版权

数据挖掘专栏收录该内容

9 篇文章 0 订阅

订阅专栏

（一）Top-k高效用项集挖掘面临的主要挑战

1）高效用项集不具有单调性或反单调性，所以剪枝是很有难度的；
2）怎么结合现有TWU算法和top-k概念。因为在phase I 时候如果确保所有HTWUI一定包含HUI，起始设置最小阈值为0，但这可能会带来一个很大的搜索空间；
3）没有给定的阈值，随着算法的进行不断更新边界阈值， min_util_Border (border minimum utility threshold),min_utilBorder 最初为0，如果不能高效的更新将面临巨大的计算时间和存储开销；
4）如何在不丢失Top-k HUIs 的情况下高效的增大阈值 min_util_Border

（二）《Efficient Algorithms for Mining Top-K High Utility Itemsets》论文解读

论文链接：《Efficient Algorithms for Mining Top-K High Utility Itemsets》

Top-k高效用项集挖掘_学习笔记(一) 基础概念

Definition 8. 有价值的交易效用值(Transaction-weighted utilization)： TWU(X)
在这里插入图片描述
计算这个数据集中包含X项集的交易的交易效用值累加和。

Property 1 (TWDC property)：transaction−weighted downward closure
property，如果项X不是高TWU值得项，那么X对应的所有超集的效用值都低。

原文给出了数学证明。只要思想就是包含超集的项一定包含X，所以超集的TWU肯定不大于X的TWU，而超集EU值又不大于TWU值，所以超级的EU肯定也小于阈值。

Property 2：设D中的完整top−k
HUIs集合为KH，KH可能包含项集小于k个，当|fHUI(D,0)|≤k，也有可能大于k个项集，因为可能有些项集具有同样的效用值。

Problem Statement：
给定一个交易数据库 D 和想要挖掘出HIUs的数目k，等价于发现那些在 D 中拥有效用值大于δ∗的项集集合。

（三）相关工作

Top-k项集挖掘

这是传统的Top-k，但是都没有考虑效用值。

高效用项集挖掘

高效用项集挖掘算法分为两类，一类是two-phase：包括两个步骤，第一步获取候选项集，第二步计算实际高效用项集。常见算法有IHUP、IIDS、UP−Growth（这个目前最优，并且在第一阶段有四个优化策略，DGU、DGN、DLU、DLN，本篇TKU的基础）；另一类是one-phase：不生成候选项集，直接生成最终高效用序列。常见的算法有d2HUP、HUM−Miner（用了utility−lists 结构本篇TKO的基础）。

Top-k高效用项集挖掘

最先提出这个概念的是Chan，但是没有考虑定量的项，和这篇论文的概念有些不一样；Zihayat提出T-HUDS用于挖掘流数据的top-k HUIs。

（四）提出两个算法

Top-k高效用项集挖掘_学习笔记(二) TKU
https://blog.csdn.net/qq_35414569/article/details/79991520

Top-k高效用项集挖掘_学习笔记(三) TKO
https://blog.csdn.net/qq_35414569/article/details/80053130

没有人比我更懂暴力算法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
高效用项集挖掘_学习笔记 (二)基本概念定理和论文解读

近年来提出了几种高效用项集挖掘算法。我的开源数据挖掘库SPMF中提供了目前Java实现的最先进的算法。(http://www.philippe-fournier-viger.com/spmf/)例如，它提供了Two-Phase算法（2005年）、 UPGrowth算法（2011年）、 HUI-Miner算法（2012年）和FHM算法（2014年）的源代码。（http://www.philippe-fournier-viger.com/spmf/ISMIS2014_FHM_Faster_High_ut
复制链接

扫一扫

专栏目录