记录下将服务端AC设备产生的数据采集到Flume中,然后基于Flume Sink 把数据日志同时写入到Kafka与HDFS中,对于Kafka中的数据保存到指定的Topic中,然后后续基于Spark Streaming采用Direct的方式,将数据从消息队列中,取出并做处理。
Flume采集日志文件,同时Sink写入到Kafka与HDFS。: agent = ac_online_user,如下:
ac_online_user.sources = ac_source
ac_online_user.channels = ac_channel_kafka ac_channel_hdfs
ac_online_user.sinks = ac_sink_kafka ac_sink_hdfs
ac_online_user.sources.ac_source.type = TAILDIR
ac_online_user.sources.ac_source.channels = ac_channel_kafka
ac_online_user.sources.ac_source.positionFile = /var/log/flume/position/accessaconlineuser.log
ac_online_user.sources.ac_source.recursiveDirectorySearch = true
ac_online_user.sources.ac_source.fileHeader = true
ac_online_user.sources.ac_source.fileHeaderKey = fileName
ac_online_user.sources.ac_source.filegroups = group_ac_online_user
ac_online_user.sources.ac_source.filegroups