这是2004年的一篇讲高效用项集挖掘的论文,算是一篇科普性的文章。
文章介绍了效用值的计算方法,但是是在超市购物的背景下的,分为一个事务效用值和额外效用值,事务效用值是在事务表中体现出来的,文中给出的是超市购物的事务表(表一),表中每一个Item下的数字表示在该事务中购买的量,例如T1事务中,Item A购买了一个,Item B购买数量为0,Item C购买数量为1,Item D购买数量为14。
图一 事务表
额外效用值是事务表之外对每个Item定义的效用值,文章中是用每个Item的购买利润来定义的(图二)。
图二 额外效用值
每一个Item的效用值都需要由一个效用计算方程
来定义,其中是事务效用值,
是额外效用值,
要满足同时对
和
单调递增。
(为什么一定要单调递增?)
一个k项集
中项
的效用值
是所有包含有项集
的事务中项
的效用和;
一个k项集的效用是该项集中所有项的效用和。
传统的频繁项集挖掘遵循一个思想就是“频繁项集的子集也是频繁的”,但是这个定理不适用于高效用项集挖掘,因为项集在增加项的过程中,它的效用值是有可能增加也有可能减少的,不符合向下封闭的特性,这就是高效用项集挖掘的难点所在。