java spark samplebykey用法_Spark学习笔记之键值对操作-Java篇(三)

一:简介

键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对 RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转 化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如 统计每个产品的评论,将数据中键相同的分为一组,将两个不同的 RDD 进行分组合并等)。

二:创建Pair RDD

在Spark中有很多种创建 pair RDD 的方式,此外,当需要把一个普通的RDD转为 pairRDD 时,可以调用 map() 函数来实现,传递的函数需要返回键值对

public static JavaPairRDD createPairRDD() {

List list = Arrays.asList(5, 4, 3, 2, 1, 6, 9, 5, 8, 9);

SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("PairRDDDemo");

sc = new JavaSparkContext(conf);

sc.setLogLevel("ERROR");

JavaRDD rdd = sc.parallelize(list);

PairFunction keyData = new PairFunction() {

private static final long serialVersionUID = 1L;

@Override

public Tuple2 call(Integer x) throws Exception {

return new Tuple2(x, x + 1);// 键值对转换,key=x ,value=x+1

}

};

JavaPairRDD pairs = rdd.mapToPair(keyData);

System.out.println("转换后的键值对=" + pairs.collect());

return pairs;

}

三:Pair RDD 转化成操作

1:相同键的值进行相加  reduceByKey

JavaPairRDD pair = pairs.reduceByKey((v1, v2) -> v1 + v2);

2:相同键的值进行分组 groupByKey

JavaPairRDD rdd = pairs.groupByKey();

3:获取所以得 keys

JavaRDD keys = pairs.keys();

4:获取全部的 values

JavaRDD values = pairs.values();

5:根据键排序 sortByKey

JavaPairRDD sortByKey = pairs.sortByKey();

6:相同的键值当中取出最大的那个键值对 如:[(1,2), (2,3), (3,4),(3,8)] 结果就是[(1,2), (2,3),(3,8)]

JavaPairRDD max = pairs.reduceByKey((v1, v2) -> Math.max(v1, v2));

7:改变value的值 mapvalues

JavaPairRDD mapValues = pairs.mapValues(v1 -> v1 + new Random().nextInt(10));

8:批量更改value的值 flatMapValues(和mapValues是有区别的)

JavaPairRDD flatMapValues = pairs.flatMapValues(v1 -> Lists.newArrayList(10));

61614966be94b6e3a48f798bf7e44496.png

四:Pair RDD 行动操作

1:对每个键对应的元素分别计数 countByKey

Map countByKey = pairs.countByKey();

2:将结果以映射表的形式返回,以便查询 collectAsMap

Map collectAsMap = pairs.collectAsMap();

3:返回给定键对应的所有值 lookup

List lookup = pairs.lookup(9);

32e8026f1b34bfc580b4cede904fd066.png

五:RDD分区

1. 什么是分区

RDD 内部的数据集合在逻辑上(以及物理上)被划分成多个小集合,这样的每一个小集合被称为分区。RDDprdd作为一个分布式的数据集,是分布在多个worker节点上的。如下图所示,RDD1有五个分区(partition),他们分布在了四个worker nodes 上面,RDD2有三个分区,分布在了三个worker nodes上面。

7809f8ad4530239da18bbd67abd8ed84.png

2. 为什么要分区

分区的个数决定了并行计算的粒度。多个分区并行计算,能够充分利用计算资源。

3. 如何手动分区

java的分区可以这样(parallelize)

JavaRDD

rdd = sc.parallelize(list, 2); // 这个是分区用了,指定创建得到的 RDD 分区个数为 2。

pairs.partitions().size() 分区数量查看

源码demo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值