Spark 实现Apriori

最新推荐文章于 2021-03-04 01:03:37 发布

hhtop112408

最新推荐文章于 2021-03-04 01:03:37 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/hhtop112408/article/details/82970211

版权

Spark实现Apriori算法，Apriori算法如果支持度高那么效果会很好，如果支持度设置的低，性能会比较差。

1：createNewItemsetsFromPreviousOnes需要优化，没有想清楚。

2：结果没有转换正确的ID，API可以优化成泛型。

3：原理不复杂，代码看看就全懂了。

代码

import java.io.Serializable;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.linalg.Vectors;

import scala.Tuple2;

/**
*
*/

public class SparkApriori implements Serializable
{

   private static final Pattern SPACE = Pattern.compile( "\\s+" );
   private double minSupport;
   private int itemsetNumber;

   public SparkApriori( double minSupport )
   {
       super( );
       this.minSupport = minSupport;
   }

   public void run( JavaRDD<String> data )
   {
       final long count = data.count( );
       JavaPairRDD<String, Long> pairs = data.flatMap( s ->
       {
           List<Tuple2<String, Long>> list = new ArrayList<Tuple2<String, Long>>( );
           String[] strs = SPACE.split( s );
           // return new Tuple2<String, Long>(str);
           for ( String str : strs )
           {
               list.add( new Tuple2<String, Long>( str, 1L ) );
           }
           return list;
       } ).mapToPair( s -> s ).aggregateByKey( 0L, ( s1, s2 ) -> s1 + s2, ( s1,
               s2 ) -> s1 +

最低0.47元/天解锁文章

hhtop112408

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark 实现Apriori

Spark实现Apriori算法，Apriori算法如果支持度高那么效果会很好，如果支持度设置的低，性能会比较差。1：createNewItemsetsFromPreviousOnes需要优化，没有想清楚。2：结果没有转换正确的ID，API可以优化成泛型。3：原理不复杂，代码看看就全懂了。代码import java.io.Serializable;import java.ut...
复制链接

扫一扫