高效用项集(High-Utility Itemset)挖掘介绍

高效用项集挖掘是数据挖掘中的一个重要领域,旨在发现交易数据中的高利润模式。区别于频繁项集挖掘,高效用项集考虑了物品在交易中的重复出现和利润,提供更具商业价值的信息。经典算法如Apriori被扩展来处理utility不满足反单调性的挑战,出现了如Two-Phase, IHUP, UP-Growth, HUI-Miner和FHM等算法。对于那些希望深入研究此领域的读者,有一个开源平台提供了相关的源码、数据和文档。" 8125952,1321259,U-Boot启动解析:start.s详解,"['嵌入式开发', '启动加载器', 'ARM架构', '汇编语言']
摘要由CSDN通过智能技术生成

高效用挖掘是数据挖掘子领域模式挖掘(pattern mining) 的一个研究方向。模式挖掘的目标就是在给定数据库中找到一些新颖的、难以直接观察的、有用的模式。举个例子,我们可以挖掘出基因序列和疾病之间关系,从而帮助研制新药。

而我们要挖掘的数据可以是多样的:

  • 关系数据库
  • 文本
  • 空间数据
  • 序列,时间序列,等等

高效用项集挖掘的一个应用场景是对交易数据(transaction database) 挖掘。我也就以它为例介绍高效用项集挖掘。

{a, b, c, d, e, …} 为某个商店一次交易所卖出的商品。a,b,c 为商品名,也即item 。则下表可以表示一个交易数据:

Transaction items
T1 {a, b, c, d, e}
T2 {a, b, e}
T3 {c, d, e}
T4 {a, b, d, e}

频繁项集挖掘是 Agrawal 1993 年提出的问题。该问题可表述为给定一个交易数据且设定参数minsup>=1 , 要求输出所有出现频次大于等于minsup 的项集。例如:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值