Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源

最新推荐文章于 2022-03-23 22:32:01 发布

erainm

最新推荐文章于 2022-03-23 22:32:01 发布

阅读量358

点赞数

分类专栏：大数据学习文章标签： spark flume

本文链接：https://blog.csdn.net/eraining/article/details/109038818

版权

大数据学习专栏收录该内容

148 篇文章 5 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何使用Spark Streaming与Apache Flume进行数据整合，包括两种方式：Poll方式和Push方式。Poll方式涉及Flume安装、配置文件开发、启动进程、数据文件准备和Spark程序开发等步骤；Push方式则涵盖配置文件开发、启动Flume进程、Spark Streaming代码实现和数据文件上传。

摘要由CSDN通过智能技术生成

除核心数据源外，还可以用附加数据源接收器来从一些知名数据获取系统中接收的数据，这些接收器都作为Spark Streaming的组件进行独立打包了。它们仍然是Spark的一部分，不过你需要在构建文件中添加额外的包才能使用它们。
现有的接收器包括 Twitter、Apache Kafka、Amazon Kinesis、Apache Flume，以及ZeroMQ。可以通过添加与Spark版本匹配的 Maven 工件 spark-streaming-[projectname]_2.10 来引入这些附加接收器。

1. Flume数据源

flume作为日志实时采集的框架，可以与SparkStreaming实时处理框架进行对接，flume实时产生数据，sparkStreaming做实时处理。
Spark Streaming对接FlumeNG有两种方式，一种是FlumeNG将消息Push推给Spark Streaming，还有一种是Spark Streaming从flume 中Poll拉取数据。

Flume拉取数据纪要：

重要问题：
Flume1.6之后的解决事务问题：TagDirSource
FlumeUserGuide.html#tail