需求
某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
思路
根据需求,首先定义以下3大要素
1. 数据源组件,即source ——监控文件目录 : spooldir
1. 监视一个目录,只要目录中出现新文件,就会采集文件中的内容
2. 采集完成的文件,会被agent自动添加一个后缀:COMPLETED
3. 所监视的目录中不允许重复出现相同文件名的文件
2. 下沉组件,即sink——HDFS文件系统 : hdfs sink
3. 通道组件,即channel——可用file channel 也可以用内存channel
cd /usr/flume/conf
mkdir /usr/dirfile
vim spooldir.conf
#name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
##注意:不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir #conf
a1.sources.r1.spoolDir &