7.4Apriori算法

  • Itemset Generation

    • 频繁集挖掘问题并不是简单的数据库计数问题,而是一个非常复杂的问题
  • Itemset Calculation

    • 复杂度在于M:如果有d种商品,所有可能的Itemsets就是右下角给出的计算结果。d种商品有两种状态0:不选择、1:选择,有2的d次方种,但是Itemset不可以为空,所以再减去1
    • 计算量庞大,需要更好的方法计算(The Apriori Method)
  • The Apriori Method

    • 任何一个频繁项,它所有的子项都一定要是频繁的
    • 一个项如果是不频繁的,那么它所有的超项(包含此项的)一定是不频繁的
    • Candidate Pruning(候选人修剪)

      • 类似于“剪枝”
    • General Procedure

      • 过程:
        • 首先,生成某一特定大小的Itemset(一般从1开始),扫描数据库,“扔掉”不频繁项
        • 用这些items组成两个两个的,再“扔掉不频繁项”,如此迭代循环
      • 思想:
        • 尽量避免生成不可能频繁的Candidates
        • 预见到哪些不可能频繁项之后,根本不用去搜索这些数据
      • 缺点:
        • 每次都要扫描一遍数据库,而大型数据库的I/O操作耗时很大
    • Apriori Algorithm

      • 两层循环:生成Candidates、Counting(计数)、过滤
  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值