基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程

最新推荐文章于 2025-03-17 18:10:22 发布

置顶

kwu_ganymede

最新推荐文章于 2025-03-17 18:10:22 发布

阅读量1.8w

点赞数 8

分类专栏： Spark 文章标签： spark flume kafka

本文链接：https://blog.csdn.net/kwu_ganymede/article/details/50761952

版权

本文介绍了使用Flume收集日志，通过Kafka传输，结合Spark-Streaming进行实时处理的完整流程。在四台测试服务器上搭建了spark、kafka和zookeeper集群，通过配置Flume的collect.conf文件实现日志从收集服务器到接收服务器的传输，再由Spark集群处理。测试结果显示，Spark-Streaming成功展示了滑动窗口的特性，对不同日志条目进行了计数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程

1、环境准备，四台测试服务器

spark集群三台，spark1,spark2,spark3

kafka集群三台，spark1,spark2,spark3

zookeeper集群三台，spark1,spark2,spark3

日志接收服务器， spark1

日志收集服务器，redis (这台机器用来做redis开发的，现在用来做日志收集的测试，主机名就不改了)

日志收集流程：

日志收集服务器->日志接收服务器->kafka集群->spark集群处理

说明：日志收集服务器，在实际生产中很有可能是应用系统服务器，日志接收服务器为大数据服务器中一台，日志通过网络传输到日志接收服务器，再入集群处理。

因为，生产环境中，往往网络只是单向开放给某台服务器的某个端口访问的。

Flume版本： apache-flume-1.5.0-cdh5.4.9 ，该版本已经较好地集成了对kafka的支持

2、日志收集服务器（汇总端）

配置flume动态收集特定的日志，collect.conf 配置如下：

# Name the components on this agent
a1.sources = tailsource-1
a1.sinks = remotesink
a1.channels = memoryC

最低0.47元/天解锁文章