基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
1、环境准备,四台测试服务器
spark集群三台,spark1,spark2,spark3
kafka集群三台,spark1,spark2,spark3
zookeeper集群三台,spark1,spark2,spark3
日志接收服务器, spark1
日志收集服务器,redis (这台机器用来做redis开发的,现在用来做日志收集的测试,主机名就不改了)
日志收集流程:
日志收集服务器->日志接收服务器->kafka集群->spark集群处理
说明: 日志收集服务器,在实际生产中很有可能是应用系统服务器,日志接收服务器为大数据服务器中一台,日志通过网络传输到日志接收服务器,再入集群处理。
因为,生产环境中,往往网络只是单向开放给某台服务器的某个端口访问的。
Flume版本: apache-flume-1.5.0-cdh5.4.9 ,该版本已经较好地集成了对kafka的支持
2、日志收集服务器(汇总端)
配置flume动态收集特定的日志,collect.conf 配置如下:
# Name the components on this agent
a1.sources = tailsource-1
a1.sinks = remotesink
a1.channels = memoryC