高效用项集挖掘_学习笔记 (二)基本概念定理和论文解读

(一)Top-k高效用项集挖掘面临的主要挑战

1)高效用项集不具有单调性或反单调性,所以剪枝是很有难度的;
2)怎么结合现有TWU算法和top-k概念。因为在phase I 时候如果确保所有HTWUI一定包含HUI,起始设置最小阈值为0,但这可能会带来一个很大的搜索空间;
3)没有给定的阈值,随着算法的进行不断更新边界阈值, min_util_Border (border minimum utility threshold),min_utilBorder 最初为0,如果不能高效的更新将面临巨大的计算时间和存储开销;
4)如何在不丢失Top-k HUIs 的情况下高效的增大阈值 min_util_Border

(二)《Efficient Algorithms for Mining Top-K High Utility Itemsets》论文解读

论文链接:《Efficient Algorithms for Mining Top-K High Utility Itemsets》

Top-k高效用项集挖掘_学习笔记(一) 基础概念

Definition 8. 有价值的交易效用值(Transaction-weighted utilization): TWU(X)
在这里插入图片描述
计算这个数据集中包含X项集的交易的交易效用值累加和。

Property 1 (TWDC property):transaction−weighted downward closure
property
,如果项X不是高TWU值得项,那么X对应的所有超集的效用值都低。

原文给出了数学证明。只要思想就是包含超集的项一定包含X,所以超集的TWU肯定不大于X的TWU,而超集EU值又不大于TWU值,所以超级的EU肯定也小于阈值。

Property 2:设D中的完整top−k
HUIs集合为KH,KH可能包含项集小于k个,当|fHUI(D,0)|≤k,也有可能大于k个项集,因为可能有些项集具有同样的效用值。

Problem Statement:
给定一个交易数据库 D 和想要挖掘出HIUs的数目k,等价于发现那些在 D 中拥有效用值大于δ∗的项集集合。

(三)相关工作

Top-k项集挖掘

这是传统的Top-k,但是都没有考虑效用值。

高效用项集挖掘

高效用项集挖掘算法分为两类,一类是two-phase:包括两个步骤,第一步获取候选项集,第二步计算实际高效用项集。常见算法有IHUP、IIDS、UP−Growth(这个目前最优,并且在第一阶段有四个优化策略,DGU、DGN、DLU、DLN,本篇TKU的基础);另一类是one-phase:不生成候选项集,直接生成最终高效用序列。常见的算法有d2HUP、HUM−Miner(用了utility−lists 结构本篇TKO的基础)。

Top-k高效用项集挖掘

最先提出这个概念的是Chan,但是没有考虑定量的项,和这篇论文的概念有些不一样;Zihayat提出T-HUDS用于挖掘流数据的top-k HUIs。

(四)提出两个算法

Top-k高效用项集挖掘_学习笔记(二) TKU
https://blog.csdn.net/qq_35414569/article/details/79991520

Top-k高效用项集挖掘_学习笔记(三) TKO
https://blog.csdn.net/qq_35414569/article/details/80053130

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值