SparkStream实践 ,Partition打印length时的误区

最新推荐文章于 2023-06-14 17:47:10 发布

MrZhengYuhui

最新推荐文章于 2023-06-14 17:47:10 发布

阅读量200

点赞数

分类专栏： spark hadoop RDD

本文链接：https://blog.csdn.net/qq_20146211/article/details/89395267

版权

hadoop 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

RDD

2 篇文章 0 订阅

订阅专栏

val stream = KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, Subscribe[String, String](topic, kafkaParam))
stream.foreachRDD(rdd => {
  rdd.foreachPartition(partitionOfRecords => {
    println("打印分区的长度:"+partitionOfRecords.length)
    partitionOfRecords.foreach(record => {
      val records = record.value().split("\t")
    })
  })
})

如代码所示，SparkStream消费Kafka时，在遍历分区（partitionOfRecords ），如果直接打印分区(partitionOfRecords )长度

其内部的数据同时会这被消费掉。以至于把foreach时遍历不出来。这是一个很奇怪的现像。值得大家引起重视

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MrZhengYuhui

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStream实践 ,Partition打印length时的误区

val stream = KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, Subscribe[String, String](topic, kafkaParam))stream.foreachRDD(rdd => { rdd.foreachPartition(partitionOfRecords...
复制链接

扫一扫