Spark的join与cogroup简单示例

最新推荐文章于 2024-07-16 23:47:57 发布

且_听_风_吟

最新推荐文章于 2024-07-16 23:47:57 发布

阅读量5k

点赞数 1

分类专栏： Spark相关文章标签： Spark 大数据 join cogroup

本文链接：https://blog.csdn.net/huitoukest/article/details/51098134

版权

Spark相关专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.join

join就是把两个集合根据key,进行内容聚合;

元组集合A:(1,"Spark"),(2,"Tachyon"),(3,"Hadoop")

元组集合B:(1,100),(2,95),(3,65)

A join B的结果:(1,("Spark",100)), (3,("hadoop",65)),(2,("Tachyon",95))

2.cogroup

cogroup就是:

有两个元组Tuple的集合A与B,先对A组集合中key相同的value进行聚合,

然后对B组集合中key相同的value进行聚合,之后对A组与B组进行"join"操作;

示例代码:

public class CoGroup {
	
	public static void main(String[] args) {
			SparkConf conf=new SparkConf().setAppName("spark WordCount!").setMaster("local");
			JavaSparkContext sContext=new JavaSparkContext(conf);
			List<Tuple2<Integer,String>> namesList=Arrays.asList(
					new Tuple2<Integer, String>(1,"Spark"),
					new Tuple2<Integer, String>(3,"Tachyon"),
					new Tuple2<Integer, String>(4,"Sqoop"),
					new Tuple2<Integer, String>(2,"Hadoop"),
					new Tuple2<Integer, String>(2,"Hadoop2")
					);
			
			List<Tuple2<Integer,Integer>> scoresList=Arrays.asList(
					new Tuple2<Integer, Integer>(1,100),
					new Tuple2<Integer, Integer>(3,70),
					new Tuple2<Integer, Integer>(3,77),
					new Tuple2<Integer, Integer>(2,90),
					new Tuple2<Integer, Integer>(2,80)
					);			
			JavaPairRDD<Integer, String> names=sContext.parallelizePairs(namesList);
			JavaPairRDD<Integer, Integer> scores=sContext.parallelizePairs(scoresList);
			/**
			 * <Integer> JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<Integer>>>
			 * org.apache.spark.api.java.JavaPairRDD.cogroup(JavaPairRDD<Integer, Integer> other)
			 */
			JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> nameScores=names.cogroup(scores);			
			
			nameScores.foreach(new VoidFunction<Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>>>() {
				private static final long serialVersionUID = 1L;
				int i=1;
				@Override
				public void call(
						Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> t)
						throws Exception {
						String string="ID:"+t._1+" , "+"Name:"+t._2._1+" , "+"Score:"+t._2._2;
						string+="     count:"+i;
						System.out.println(string);
						i++;
				}
			});
			
			sContext.close();
	}
}

示例结果:

ID:4 , Name:[Sqoop] , Score:[]     count:1
ID:1 , Name:[Spark] , Score:[100]     count:2
ID:3 , Name:[Tachyon] , Score:[70, 77]     count:3
ID:2 , Name:[Hadoop, Hadoop2] , Score:[90, 80]     count:4

且_听_风_吟

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的join与cogroup简单示例

1.join join就是把两个集合根据key,进行内容聚合; 元组集合A:(1,"Spark"),(2,"Tachyon"),("3","Hadoop") 元组集合B:(1,100),(2,95),(3,65) A join B的结果:(1,("Spark",100)),(3,("
复制链接

扫一扫