高效用挖掘是数据挖掘子领域模式挖掘(pattern mining) 的一个研究方向。模式挖掘的目标就是在给定数据库中找到一些新颖的、难以直接观察的、有用的模式。举个例子,我们可以挖掘出基因序列和疾病之间关系,从而帮助研制新药。
而我们要挖掘的数据可以是多样的:
- 关系数据库
- 图
- 文本
- 空间数据
- 序列,时间序列,等等
高效用项集挖掘的一个应用场景是对交易数据(transaction database) 挖掘。我也就以它为例介绍高效用项集挖掘。
设{a, b, c, d, e, …} 为某个商店一次交易所卖出的商品。a,b,c 为商品名,也即item 。则下表可以表示一个交易数据:
Transaction | items |
---|---|
T1 | {a, b, c, d, e} |
T2 | {a, b, e} |
T3 | {c, d, e} |
T4 | {a, b, d, e} |
频繁项集挖掘是 Agrawal 1993 年提出的问题。该问题可表述为给定一个交易数据且设定参数minsup>=1 , 要求输出所有出现频次大于等于minsup 的项集。例如: