Spark streaming 与 Flume 结合消息处理机制 Push 与 Poll 对比分析

最新推荐文章于 2023-03-03 17:02:16 发布

字母的艺术

最新推荐文章于 2023-03-03 17:02:16 发布

阅读量381

点赞数

分类专栏： hadoop 文章标签： Spark streaming Flume

本文链接：https://blog.csdn.net/py_tamir/article/details/88089760

版权

hadoop 专栏收录该内容

47 篇文章 0 订阅

订阅专栏

1. Push 方式（flume 主动）

Flume 将消息推送到 SparkStreaming 中 worker 的 executor 处理，但是其缺点是 flume 只能指定一个executor 来处理，这样会给单个节点中executor造成很大的压力，故不推荐该方式。

部分实例代码

//推送方式: flume向spark（spark 地址一个，具体来说启动的是spark集群中某个work的地址）发送数据
val flumeStream = FlumeUtils.createStream(ssc, "192.168.2.2", 8888)

注意：192.168.2.2 是spark集群中某个worker地址，这个造成该方式的缺点。

2. Poll 方式（sparkStreaming 主动）

Spark Streaming 会从Flume中拉取数据，可以指定多个flume地址。但是其处理该数据的worker可以指定多个，可以设置为默认值，故不会出现单个executor处理数据压力很大的情况。

部分实例代码

//从flume中拉取数据(flume的地址，可以多个)
val address = Seq(new InetSocketAddress("192.168.2.181", 8888))
val flumeStream = FlumeUtils.createPollingStream(ssc, address, StorageLevel.MEMORY_AND_DISK)
val words = flumeStream.flatMap(x => new String(x.event.getBody().array()).split(" ")).map((_,1))
val results = words.updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)

3、总结

推荐使用 poll方式！

字母的艺术

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark streaming 与 Flume 结合消息处理机制 Push 与 Poll 对比分析

1. Push 方式（flume 主动）Flume 将消息推送到 SparkStreaming 中 worker 的 executor 处理，但是其缺点是 flume 只能指定一个executor 来处理，这样会给单个节点中executor造成很大的压力，故不推荐该方式。部分实例代码//推送方式: flume向spark（spark 地址一个，具体来说启动的是spark集群中某个w...
复制链接

扫一扫