【Spark】Spark RDD Shuffle 讲解

最新推荐文章于 2023-06-18 13:40:36 发布

晚风中的自由

最新推荐文章于 2023-06-18 13:40:36 发布

阅读量522

点赞数

分类专栏： Spark 大数据文章标签： Spark

本文链接：https://blog.csdn.net/u014028317/article/details/102997522

版权

本文介绍了Spark中的Shuffle机制，它用于数据的重分区。Shuffle在groupByKey、reduceByKey等操作中触发，案例中展示了从3个分区重分区为2个过程中发生的数据shuffle。

摘要由CSDN通过智能技术生成

一、概述

Spark RDD Shuffle类似mapreduce中的shuffle。bucket相当于分区。

什么是spark shuffle？

shfulle是spark对数据进行重分区的机制。

哪些操作会引起shuffle？

具有重新调整分区的操作，eg：repartition，coalesce

*ByKey，eg：groupByKey，reduceByKey

关联操作：eg：join，cogroup

二、案例讲解

1、读取hdfs文件，设置分区

在hdfs上有文件 /user/root/mapreduce/wordcount/input/wc.input，内容如下：

hadoop hive
hive hadoop
hbase sqoop
hbase sqoop
hadoop hive

用spark读取文件 wc.input ，创建rdd，设置分区为3

val rdd = sc.textFile("hdfs://hadoop-senior.ibeifeng.com:8020/user/root/mapreduce/wordcount/input/wc.input", 3)

2、保存分区到hdfs

把rdd保存到hdfs的以

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注