实践:Flume同步信息到HDFS
环境介绍
本次实战基于cdh5.8.5,flume 1.8。
实战背景
应用程序通过log4j记录日志信息(用户ip,访问url,请求方式,状态码信息,时间戳),记录到服务器上(地址:/data/flume/log)。通过flume组件将不断更新的日志信息传递给hdfs做离线处理,kafka做实时处理。
当然我们本次先演示flume-hdfs的过程。
架构图
配置
flume-agent配置
# 组装agent
a1.channels = ch_1
a1.sources = src_1
a1.sinks = sink_1
# 配置 source:从目录中读取文件
a1.sources.src_1.type = spooldir
a1.sources.src_1.channels = ch_1
a1.sources.src_1.spoolDir = /data/flume/log
a1.sources.src_1.includePattern=^.*$
a1.sources.src_1.ignorePattern=^.*log$
a1.sources.src_1.deletePolicy= never
a1.sources.src_1.