Learning Spark 笔记(六) -- 指定分区信息改善join()等的操作

最新推荐文章于 2022-05-18 15:54:23 发布

BlockheadLS

最新推荐文章于 2022-05-18 15:54:23 发布

阅读量2.6k

点赞数

分类专栏： Spark学习之路

本文链接：https://blog.csdn.net/BlockheadLS/article/details/52366153

版权

本文介绍了如何通过使用`partitionBy()`指定分区信息来优化Spark中的`join()`操作，以减少资源和时间消耗。当一个RDD数据量大而另一个小，join会导致全 Shuffle。通过预先分区并持久化大数据量的RDD，可以避免不必要的shuffle。另外，还可以通过广播小数据量的RDD并使用`map()`来进一步优化，避免join操作。

摘要由CSDN通过智能技术生成

9 . 默认情况下，join()操作会对两个RDD的主键做哈希以分区，通过网络将主键相同的元素发送到同一台机器上，然后根据相同的主键再进行连接。例子如下：

val sc = new SparkContext()
val userData = sc.sequenceFile[UserID,LinkInfo]("hdfs://...").persist
def processNewLogs(logFileName:String){
    val events = sc.sequenceFile[UserID, LinkInfo](logFileName)
    //RDD of (UserID,(UserInfo,LinkInfo)) pairs
    val joined = usersData.join(events)
    val offTopicVisits = joined.filter {
        // Expand the tuple into its components
        case (userId, (userInfo, linkInfo)) =>