使用flume-ng+kafka+storm+mysql 搭建实时日志处理平台

最新推荐文章于 2021-01-27 03:58:23 发布

农村外出务工男

最新推荐文章于 2021-01-27 03:58:23 发布

阅读量1.6k

点赞数 2

分类专栏： storm 文章标签： flume kafka storm mysql

本文链接：https://blog.csdn.net/charry_a/article/details/79279077

版权

本文介绍了如何使用flume、kafka、storm和mysql搭建实时日志处理平台。首先，通过flume监听日志文件并发送到kafka，然后storm消费kafka数据并存入mysql，确保了即使在flume故障转移时数据也能被正确处理。最终实现了从应用server到数据库的完整链路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、架构介绍

      因为要采集的日志已经在线上，为了不侵入代码(主要也是其他产品不会因为我们搞这个日志监控而修改代码后重新上线)，已经不能再规范日志化输出，也就是需要对老系统进行日志分析。对于不同的应用，不同的日志类型，比如nginx日志、tomcat日志、应用日志等都需要分别采集；调研了flume和Logstash，当然还有更轻量级的filebeta；最后选择了flume，有以下几个原因：

    1、flume是JAVA写的，对于项目组来说，入手成本稍低，虽然logstash也不错，但是要改源码，还得学习下ruby

2、flume和目前主流的系统或框架集成都比较容易，如hadoop、hbase、es，当采集日志后，数据落地比较方便

     flume有3个非常重要的组件，分别是source、channel、sink 分别对应数据源，数据传输通道，数据落地。一般来说，当我们采集日志的时候，需要在app server上部署一个flume agent，然后将日志信息传输到指定的sink里面，但是这样做不是很好扩展，比如flume--->kafka这样的架构，假如

   1、因为我们采集的日志跨项目组，也就是有不同的项目日志，如果直接flume-kafka,那么我的kafka配置信息需要对外完全暴露

       2、假如现在我的kafka机器需要停机维护或者节点挂了，就会影响到flume端的日志采集服务

       所以这里我们考虑让flume分层部署，不同的项目日志经过agent后再到一个数据缓存层，并且做好数据缓存层的failover，大概架构如下

      首先，在不同的server上部署agent，根据不同的日志来源，为了更快的传输，第一层agent的channel使用exec，也就是实时监控新日志的产生，第二层agent的channel因为要做数据缓存，这里采用file，而且这里使用flume 的故障转移机制，也就是第一层的agent对应的sink配置2个不同的agent，使用优先级约束，当第二层其中某一个agent宕机后，将自动由低优先级的agent来负责接收第一层的日志。

      这里以一个项目的其中某个日志来举例，首先编写conf文件

a1.sources = s1
a1.sinks = k1 k2
a1.channels = c1

# Describe/configure the source

a1.sources.s1.type = exec
a1.sources.s1.channels = c1
a1.sources.s1.command = tail -F  /home/esuser/flume/logs/flume.log

#config interceptor
a1.sources.s1.interceptors=i1 i2
a1.sources.s1.interceptors.i1.type=host
a1.sources.s1.interceptors.i1.useIP=true
a1.sources.s1.interceptors.i1.preserverExisting=false

a1.sources.s1.interceptors.i2.type=static
a1.sources.s1.interceptors.i2.key=projectname
a1.sources.s1.interceptors.i2.value=honeybee
a1.sources.s1.interceptors.i2.preserverExisting=false


# Describe the sink

a1.sinks.k1.type = avro
a1.sinks.k1.hostname = 192.168.80.132
a1.sinks.k1.port= 3333
a1.sinks.k1.channels = c1

a1.sinks.k2.type = avro
a1.sinks.k2.hostname = 192.168.80.132
a1.sinks.k2.port = 4444
a1.sinks.k2.channels = c1

# Use a channel that buffers events in memory

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1


a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 10
a1.sinkgroups.g1.processor.priority.k2 = 5
a1.sinkgroups.g1.processor.maxpenalty = 1000

这里定义了一个source，2个sink，其中一个发送到3333监听端口，另一个发送到4444监听端口，channel采用exec。

接下来看一下第二层

先看3333接口

a1.sources = s1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source

a1.sources.s1.type = avro
a1.sources.s1.channels = c1
a1.sources.s1.bind = 192.168.80.132
a1.sources.s1.port = 3333
a1.sources.s1.threads = 2


# Describe the sink

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSi

最低0.47元/天解锁文章