flume flume采集目录到HDFS

采集新增文件到HDFS

此案例为了方便观察采集结果,设置的采集频率都比较高,实际应用中频率不应该这么高
同时通过大小和实际控制临时文件滚动生成目标文件

  • 结构示意图
    在这里插入图片描述
  • 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去
  • 需求分析
    根据需求,首先定义以下3大要素
  • 数据源组件,即source ——监控文件目录 : spooldir
    spooldir特性
    1.监视一个目录,只要目录中出现新文件,就会采集文件中的内容
    2.采集完成的文件,会被agent自动添加一个后缀:COMPLETED
    3.所监视的目录中不允许重复出现相同文件名的文件
  • 下沉组件,即sink——HDFS文件系统 : hdfs sink
  • 通道组件,即channel——可用file channel 也可以用内存channel

flume配置文件

cd  /bg/apache-flume-1.6.0-cdh5.14.2-bin/conf
mkdir -p /bg/dirfile
vim spooldir.conf

定义agent内组件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

定义source

# Describe/configure the source
##注意:不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
## source类型为spooldir
a1.sources.r1.spoolDir = /test/dirfile
## 是否添加文件的绝对路径到event的header中,默认是false
a1.sources.r1.fileHeader = true

注意:flume中重复添加相同名称的文件,flume会崩溃无法继续运行。

定义channel

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
## channel的容量:1000条数据
a1.channels.c1.capacity = 1000
## 一次从source拿去或者输出到sink的最大容量
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注意

  • 使用memory channel当数据宕机时,channel中未传送至sink端的数据会丢失。
  • 可以使用file channel代替。当flume重启启动后,会读取file channel内的数据
  • 也可以不定义sink 直接将数据输出到kafka的topic中

定义sink

# Describe the sink
## 定义输出类型
a1.sinks.k1.type = hdfs
## channel需要和agent设置中的名称保持一致
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://node01:8020/spooldir/files/%y-%m-%d/%H%M/
## 生成的文件名前缀,默认是FlumeData
a1.sinks.k1.hdfs.filePrefix = events-

## 以下3个round相关参数设置用来控制多久生成一个文件
## 时间戳是否四舍五入,默认false
a1.sinks.k1.hdfs.round = true
## 时间上进行舍弃的值
a1.sinks.k1.hdfs.roundValue = 10
## 时间上进行舍弃的单位
a1.sinks.k1.hdfs.roundUnit = minute

## 设置true则使用本地时间生成文件 而不是e
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值