换个角度思考问题——频繁项集挖掘的两个优化策略

本文介绍了数据挖掘中提高频繁项集挖掘效率的两种策略:Vertical mining和Diffset。Vertical mining通过转换数据库结构,使得支持数计算更高效,避免全库扫描。Diffset则是Eclat算法的一种优化,通过维护项集的tidset补集,减少内存需求,尤其适用于dense数据库。
摘要由CSDN通过智能技术生成

在以前的博客中介绍过数据挖掘的一个基本问题频繁项集挖掘。对于这一问题,有很多不同思想的算法。同时,也有一些优化策略可以在算法基本不变的情况下大大提高算法的效率。今天介绍两个:竖向数据库(Vertical database)、Diffsets 两个策略非常相像,都是换了一个角度处理数据,巧妙而有效率。

Vertical mining 

为了说明这一策略,我用AprioriTID算法和Apriori做一比较:
首先可以将数据库做如下转换:
竖向数据库
这时,如果要计算一个项集(itemset)的支持数时,就不用扫描一遍数据库了,而可以对tid数据库做交集。

例如,要计算{pasta,lemon}的支持数:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值