Flume的核心组件为source、channle、sink:
组件描述
source可以对接数据源,可以是mysql、file、tcp等
channle为数据传输通道,可指定为内存、文件等
sink为数据输出,可以是file、mysql、es、hdfs、hive、kafka等等
功能描述-1
由于soucre和sink均有多样性,因此可以根据需求非常灵活的组织自己需要的数据流转模式,可以跨越各种限制
功能描述-2
Flume也提供了Filter接口,可以自己根据需求来实现该接口实现数据转换,将流入的数据进行一些过滤、转换后输出,比如:可以刷选出自己需要的数据发送到sink端,也可以将数据格式进行一定的转换后输出到sink
配置案例
以rsyslog为source、kafka为sink进行配置
rsyslog模式为linux自动的日志分析组件
rsyslog将数据转发至牟已端口后,在flume中配置监听该端口后,当Flumeq启动后会实时自动消费该端口中的数据,具体配置如下:
#定义source、channle、kafka名称
syslogTCPAgent.sources = syslogtcpSrc
syslogTCPAgent.channels = kfkChannel
syslogTCPAgent.sinks = kafkaSink
#source配置
syslogTCPAgent.sources.syslogtcpSrc.type = syslogtcp
syslogTCPAgent.sources.syslogtcpSrc.host = 192.168.168.155
syslogTCPAgent.sources.syslogtcpSrc.port = 5110
syslogTCPAgent.sources.syslogtcpSrc.eventSize=50960
syslogTCPAgent.sources.syslogtcpSrc.channels = kfkChannel
#自定义接口,实现自己需要的内容,没需求可以不配置
syslogTCPAgent.sources.syslogtcpSrc.interceptors
= jsonintercepter
syslogTCPAgent.sources.syslogtcpSrc.interceptors.jsonintercepter.type
= com.test.flume.interceptor.JsonInterceptor$Builder
#sink配置
syslogTCPAgent.sinks.kafkaSink.type
= org.apache.flume.plugins.KafkaSink
syslogTCPAgent.sinks.kafkaSink.metadata.broker.list
=hdp01:9092,hdp02:9092,hdp03:9092,hdp04:9092
syslogTCPAgent.sinks.kafkaSink.partition.key=0
syslogTCPAgent.sinks.kafkaSink.channel = kfkChannel
syslogTCPAgent.sinks.kafkaSink.partitioner.class
=org.apache.flume.plugins.SinglePartition
syslogTCPAgent.sinks.kafkaSink.serializer.class
=kafka.serializer.StringEncoder
syslogTCPAgent.sinks.kafkaSink.request.required.acks=0
syslogTCPAgent.sinks.kafkaSink.producer.type=sync
syslogTCPAgent.sinks.kafkaSink.custom.encoding=UTF-8
syslogTCPAgent.sinks.kafkaSink.custom.topic.name=my-test
#参数配置
syslogTCPAgent.channels.kfkChannel.type = memory
syslogTCPAgent.channels.kfkChannel.capacity = 100000
syslogTCPAgent.channels.kfkChannel.transactionCapacity = 5000
syslogTCPAgent.channels.kfkChannel.keep-alive = 300
#以上配置为基础配置,相关参数可以根据需求不断优化调整
启动脚本以及日志配置
#将启动内容封装在shell里面,命名为flume_visitlog.sh
具体内容为
/test/apache-flume-1.5.2-kafka/bin/flume-ng agent --conf
/test/apache-flume-1.5.2-kafka/conf --conf-file /test/apache-flume-1.5.2-kafka/conf/flume_kafka.conf --name syslogTCPAgent 2>&1 &
exit
#日志配置
/test/apache-flume-1.5.2-kafka/conf 指定了日志配置文件路径
配置文件为log4j.properties
配置内容:
flume.root.logger=ERROR,LOGFILE #日志级别
flume.log.dir=/test/logs #日志路径
flume.log.file=flume_kafka.log #日志名称
启动&运用
以上配置完成后即可执行 sh flume_kafka.sh启动Flume实例
可在source端发送一条数据:
echo 'testdata' | nc 192.168.168.155 5110
启动一个kafka消费端程序观察是否有数据输出(topic不存在需先创建)
kafka-console-consumer.sh --zookeeper hdp02:2181,hdp03:2181,hdp04:2181 --topic my-test
观察日志看看是否有异常并调整解决