Spark数据分区

最新推荐文章于 2024-01-21 03:40:33 发布

VIP文章 d4shman

最新推荐文章于 2024-01-21 03:40:33 发布

阅读量2.4k

点赞数 1

分类专栏： hadoop&spark

本文链接：https://blog.csdn.net/wusuopubupt/article/details/53236953

版权

Spark程序可以通过分区来减少网络通信开销。分区并非对于所有场景都是有好处的：比如，如果给定RDD只被扫描一遍，那么完全没有必要做分区，只有当数据多次在诸如连接这种基于键的操作时，分区才会有帮助。假设我们有一份不变的大文件userData, 以及每5分钟产生的小数据events, 现要求在每5分钟产出events数据后， userData对events做一次join操作。该过程的代码示例如下：

val sc = new SparkContext()
val userData = sc.sequenceFile[UserID,LinkInfo]("hdfs://...").persist
def processNewLogs(logFileName:String){
    val events = sc.sequenceFile[UserID, LinkInfo](logFileName)
    //RDD of (UserID,(UserInfo,LinkInfo)) pairs
    val joined = usersData.join(events)
    val offTopicVisits = joined.filter {
        // Expand the tuple into its components
        case (userId, (userInfo, linkInfo)) => 
            !userInfo.topics.contains(linkInfo.topic)
    }.count()
    println("Number of visits to non-subscribed opics: " + offTopic

最低0.47元/天解锁文章

d4shman

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Spark数据分区

Spark程序可以通过分区来减少网络通信开销。分区并非对于所有场景都是有好处的：比如，如果给定RDD只被扫描一遍，那么完全没有必要做分区，只有当数据多次在诸如连接这种基于键的操作时，分区才会有帮助。假设我们有一份不变的大文件userData, 以及每5分钟产生的小数据events, 现要求在每5分钟产出events数据后， userData对events做一次join操作。该过程的代码
复制链接

扫一扫