flume 监听linux下的文件夹下所有文件,通过spark批量读取数据

flume 监听linux下的文件夹下所有文件,并将文件内容存入到hdfs,生成多个以时间戳结尾的文件,通过spark批量读取数据。

  1. 配置 flume-spooldir.conf

     ### define agent
     a3.sources = r3
     a3.channels = c3
     a3.sinks = k3
     
     ### define sources
     a3.sources.r3.type = spooldir
     ### 要扫描的文件夹
     a3.sources.r3.spoolDir = /usr/local/src/apache-flume-1.6.0-bin/data
     ### 以.log结尾的文件不扫描
     a3.sources.r3.ignorePattern = ^(.)*\\.log$
     ### 扫描完成的文件加一个后缀
     a3.sources.r3.fileSuffix = .delete
     
     ### define channels
     a3.channels.c3.type = file
     a3.channels.c3.checkpointDir = /usr/local/src/apache-flume-1.6.0-bin/data/filechannel/checkpoint
     a3.channels.c3.dataDirs = /usr/local/src/apache-flume-1.6.0-bin/data/filechannel/data
     
     ### define sink
     a3.sinks.k3.type = hdfs
     ### 已当天日期在hdfs上创建一个文件夹
     a3.sinks.k3.hdfs.path = hdfs://master:9000/user/root/%Y%m%d
     a3.sinks.k3.hdfs.writeFormat = Text
     a3.sinks.k3.hdfs.batchSize = 100
     a3.sinks.k3.hdfs.useLocalTimeStamp = 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值