1.简介
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
2.推送式方法
在推送式方法
本文详细介绍了如何将Apache Flume与Spark Streaming整合,分别阐述了推送式和拉取式两种方法。在推送式方法中,Flume通过avro Sink将数据推送到Spark Streaming的监听端口;在拉取式方法中,数据被推送到SparkSink接收器,Spark Streaming按需拉取数据。文章涵盖配置Flume、项目依赖、打包、启动服务、测试以及注意事项等步骤。
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
在推送式方法
962
566

被折叠的 条评论
为什么被折叠?