Flume之HDFS Sink使用案例


前言

  • 操作系统:CentOS 7
  • Java版本:1.8.0_221
  • Flume版本:1.8.0
  • HDFS版本:2.7.7
  • Flume agent配置:Netcat TCP Source、Memory Channel、HDFS Sink

具体步骤

a) 拷贝Hadoop相关jar包至flume/lib/路径下

hadoop-2.7.7/share/路径下找到以下对应jar包,并将其拷贝至flume/lib/路径下。Flume启动时,会将此路径添加至ClassPath
commons-configuration-1.6.jar
commons-io-2.4.jar
hadoop-auth-2.7.7.jar
hadoop-common-2.7.7.jar
hadoop-hdfs-2.7.7.jar
htrace-core-3.1.0-incubating.jar

b) 根据使用场景配置properties文件

# 用于从netcat指定端口收集数据最终输出到HDFS中

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Sources
# a1.sources.r1
# 配置source类型/绑定主机ip/端口号
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# Sinks
# a1.sinks.k1
a1.sinks.k1.type = hdfs
# 设置hdfs文件路径,同时并设置了按照日期创建文件夹
a1.sinks.k1.hdfs.path = /flume/logs/%Y-%m-%d/%H-%M-%S
# 设置flume创建的hdfs文件前缀
a1.sinks.k1.hdfs.filePrefix = logs_%Y-%m-%d

# 以下三组参数的配置用于控制flume在hdfs中生成文件的滚动方式
# 满足以下三者中任何一个条件都会新生成hdfs文件
# 设置文件滚动的时间间隔,单位(second),置0表示关闭
a1.sinks.k1.hdfs.rollInterval = 10
# 设置文件滚动的最大size阈值,由于是hdfs sink故最好设置成Block Size的倍数
# 本次实验的hadoop版本为2.7.7(2.7.3之后默认Block Size为128MB,之前为64MB)
# 单位(bytes),置0表示关闭
a1.sinks.k1.hdfs.rollSize = 134217700
# 设置滚动文件存储的最大Event个数
# 此参数一般设置为0,即关闭,除非有严格生产需求并且知道Event大小能够自主控制
a1.sinks.k1.hdfs.rollCount = 0

# 设置flume每批次刷到hdfs中的Event个数(超过一定时长也会进行刷新,并非要等满一批次)
a1.sinks.k1.hdfs.batchSize = 100

# 设置hdfs文件格式,目前只支持(SequenceFile/DataStream/CompressedStream)
# CompressedStream类型需要配合hdfs.codeC参数来指定具体的压缩方式
# SequenceFile表示按照HDFS序列文件SequenceFile的方式进行压缩
# DataStream则表示不进行压缩
a1.sinks.k1.hdfs.fileType = DataStream

# 以下三组参数的配置配合转义序列(如%y %m %d %H %M %S等)能够自定义时间轮转最小刻度
# 设置hdfs时间向下取整
# 设置向下取整之后文件夹将按照一定时间大小的刻度进行创建文件夹
# 否则都是按照之前设置每分钟进行文件夹的创建
a1.sinks.k1.hdfs.round = true
# 设置hdfs时间向下取整的最小单元倍数
a1.sinks.k1.hdfs.roundValue = 30
# 设置hdfs时间向下取整的最小单位
a1.sinks.k1.hdfs.roundUnit = second

# 设定是否使用本地时间戳,默认为false(即使用Event的Header中的时间戳)
# 本次实验中Event的Header为空,需要使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true


# Channels
# 定义a2的channerls.c1的类型为memory,即使用内存作为缓存/最多缓存的Event个数/单次传输的Event个数
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


# Bind
# 注意:source可以绑定多个channel,但是sink只能绑定单个channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c) 使用此配置文件启动agent

启动脚本前保证HDFS集群正常运行
[tomandersen@hadoop101 flume-1.8.0]$ call-cluster.sh jps
----------hadoop103----------
18272 Jps
17794 DataNode
17987 NodeManager
18105 JobHistoryServer
17868 SecondaryNameNode
----------hadoop102----------
17826 DataNode
18457 Jps
17950 ResourceManager
18079 NodeManager
----------hadoop101----------
10321 DataNode
10785 Jps
10619 NodeManager
10205 NameNode

----------execute "jps" in cluster takes 6 seconds----------

[tomandersen@hadoop101 flume-1.8.0]$
在Flume安装路径下通过bin/flume-ng脚本启动agent
./bin/flume-ng agent -n a1 -c conf/ -f job/netcat-memory-hdfs.properties

d) 发送测试数据并检查HDFS中是否成功上传对应数据

发送测试数据
[tomandersen@hadoop101 ~]$ echo Hello World! | nc localhost 44444
OK
[tomandersen@hadoop101 ~]$ 
[tomandersen@hadoop101 ~]$ 
进入NameNode Web UI页面查看HDFS文件

查看HDFS文件

下载并查看查看HDFS文件内容

查看HDFS文件


End~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值