Apriori算法详解之【二、伪代码和例子】

最新推荐文章于 2024-08-15 23:00:41 发布

林花谢了春红

最新推荐文章于 2024-08-15 23:00:41 发布

阅读量813

点赞数

分类专栏：数据挖掘文章标签：算法

本文链接：https://blog.csdn.net/a1610770854/article/details/50889004

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

上一篇文章中对Apriori算法进行了简单的描述（http://blog.csdn.net/a1610770854/article/details/50888993），现在用伪代码实现，及对经典例子进行描述。

一、Apriori算法伪代码实现：

[plain]view plain copy 
   
 伪代码描述：  
  // 找出频繁 1 项集  
      L1 =find_frequent_1-itemsets(D);   
      For(k=2;Lk-1 !=null;k++){  
 // 产生候选，并剪枝  
         Ck =apriori_gen(Lk-1 );   
 // 扫描 D 进行候选计数  
         For each 事务t  in D{   
             Ct =subset(Ck,t); // 得到 t 的子集  
             For each 候选 c 属于 Ct  
                 c.count++;  
         }  
         //返回候选项集中不小于最小支持度的项集  
         Lk ={c 属于 Ck | c.count>=min_sup}  
 }  
 Return L= 所有的频繁集；  
 第一步：连接（join）  
 Procedure apriori_gen (Lk-1 :frequent(k-1)-itemsets)  
       For each 项集 l1 属于 Lk-1  
          For each 项集 l2 属于 Lk-1  
             If( (l1 [1]=l2 [1])&&( l1 [2]=l2 [2])&& ……&& (l1 [k-2]=l2 [k-2])&&(l1 [k-1]<l2 [k-1]) )   
 then{  
                     c = l1 连接 l2    // 连接步：产生候选  
                   //若k-1项集中已经存在子集c则进行剪枝  
                    if has_infrequent_subset(c, Lk-1 ) then  
                        delete c; // 剪枝步：删除非频繁候选  
                    else add c to Ck;  
                    }  
           Return Ck;  
 第二步：剪枝（prune）   
  Procedure has_infrequent_sub (c:candidate k-itemset; Lk-1 :frequent(k-1)-itemsets)  
          For each (k-1)-subset s of c  
             If s 不属于 Lk-1 then  
                Return true;  
         Return false;