flume采集目录到HDFS
采集新增文件到HDFS
此案例为了方便观察采集结果,设置的采集频率都比较高,实际应用中频率不应该这么高
同时通过大小和实际控制临时文件滚动生成目标文件
- 结构示意图
- 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
- 需求分析:
根据需求,首先定义以下3大要素 - 数据源组件,即source ——监控文件目录 : spooldir
spooldir特性:
1.监视一个目录,只要目录中出现新文件,就会采集文件中的内容
2.采集完成的文件,会被agent自动添加一个后缀:COMPLETED
3.所监视的目录中不允许重复出现相同文件名的文件 - 下沉组件,即sink——HDFS文件系统 : hdfs sink
- 通道组件,即channel——可用file channel 也可以用内存channel
flume配置文件
cd /bg/apache-flume-1.6.0-cdh5.14.2-bin/conf
mkdir -p /bg/dirfile
vim spooldir.conf
定义agent内组件
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
定义source
# Describe/configure the source
##注意:不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
## source类型为spooldir
a1.sources.r1.spoolDir = /test/dirfile
## 是否添加文件的绝对路径到event的header中,默认是false
a1.sources.r1.fileHeader = true
注意:flume中重复添加相同名称的文件,flume会崩溃无法继续运行。
定义channel
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
## channel的容量:1000条数据
a1.channels.c1.capacity = 1000
## 一次从source拿去或者输出到sink的最大容量
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
注意:
- 使用memory channel当数据宕机时,channel中未传送至sink端的数据会丢失。
- 可以使用file channel代替。当flume重启启动后,会读取file channel内的数据
- 也可以不定义sink 直接将数据输出到kafka的topic中
定义sink
# Describe the sink
## 定义输出类型
a1.sinks.k1.type = hdfs
## channel需要和agent设置中的名称保持一致
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node01:8020/spooldir/files/%y-%m-%d/%H%M/
## 生成的文件名前缀,默认是FlumeData
a1.sinks.k1.hdfs.filePrefix = events-
## 以下3个round相关参数设置用来控制多久生成一个文件
## 时间戳是否四舍五入,默认false
a1.sinks.k1.hdfs.round = true
## 时间上进行舍弃的值
a1.sinks.k1.hdfs.roundValue = 10
## 时间上进行舍弃的单位
a1.sinks.k1.hdfs.roundUnit = minute
## 设置true则使用本地时间生成文件 而不是e