spark
Barry Lzq
大数据开发小白菜
展开
-
spark写入使用pipeline批量写redis
在这里插入代码片 def forPartition(pipeline:Pipeline,jedis: Jedis): Iterator[Row] ={ val rows: Iterator[Row] = partition.map(row => { val key = row.getAs[String](keyNameInDF) val value = row.getAs[String](valueNameInDF) match原创 2021-09-28 17:14:00 · 420 阅读 · 1 评论 -
sparkStreaming 微批处理任务监控
sparkstreaming任务在处理数据时存在堆积情况,但是仍然会不断从kafka拉取数据 首先先说2个参数 spark.streaming.kafka.consumer.poll.ms spark去kafka取数的时候,会有一个超时时间。如果两次尝试后都出现了超时,这个任务就会失败,然后spark会把这个任务分发到其它的executor上面去执行,这就会导致一定的调度耗时。 在spark中这个参数的默认值是512ms。如果超时时间很短,但是kafka响应的时间很长,这就会导致spark中有很多的任务失败原创 2021-05-13 15:21:05 · 648 阅读 · 0 评论