基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程

本文介绍了使用Flume收集日志,通过Kafka传输,结合Spark-Streaming进行实时处理的完整流程。在四台测试服务器上搭建了spark、kafka和zookeeper集群,通过配置Flume的collect.conf文件实现日志从收集服务器到接收服务器的传输,再由Spark集群处理。测试结果显示,Spark-Streaming成功展示了滑动窗口的特性,对不同日志条目进行了计数。
摘要由CSDN通过智能技术生成

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程


1、环境准备,四台测试服务器

spark集群三台,spark1,spark2,spark3

kafka集群三台,spark1,spark2,spark3

zookeeper集群三台,spark1,spark2,spark3

日志接收服务器, spark1

日志收集服务器,redis (这台机器用来做redis开发的,现在用来做日志收集的测试,主机名就不改了)


日志收集流程:

日志收集服务器->日志接收服务器->kafka集群->spark集群处理

说明: 日志收集服务器,在实际生产中很有可能是应用系统服务器,日志接收服务器为大数据服务器中一台,日志通过网络传输到日志接收服务器,再入集群处理。

因为,生产环境中,往往网络只是单向开放给某台服务器的某个端口访问的。


Flume版本: apache-flume-1.5.0-cdh5.4.9 ,该版本已经较好地集成了对kafka的支持


2、日志收集服务器(汇总端)

配置flume动态收集特定的日志,collect.conf  配置如下:

# Name the components on this agent
a1.sources = tailsource-1
a1.sinks = remotesink
a1.channels = memoryC
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值