Flume之HDFS Sink使用案例

最新推荐文章于 2023-04-15 20:50:47 发布

TomAndersen

最新推荐文章于 2023-04-15 20:50:47 发布

阅读量904

点赞数

分类专栏： Flume Hadoop 文章标签： flume hadoop 大数据

本文链接：https://blog.csdn.net/TomAndersen/article/details/104671374

版权

Hadoop 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

Flume

8 篇文章 0 订阅

订阅专栏

前言

操作系统：CentOS 7
Java版本：1.8.0_221
Flume版本：1.8.0
HDFS版本：2.7.7
Flume agent配置：Netcat TCP Source、Memory Channel、HDFS Sink

具体步骤

a) 拷贝Hadoop相关jar包至`flume/lib/`路径下

在`hadoop-2.7.7/share/`路径下找到以下对应jar包，并将其拷贝至`flume/lib/`路径下。Flume启动时，会将此路径添加至ClassPath

commons-configuration-1.6.jar
commons-io-2.4.jar
hadoop-auth-2.7.7.jar
hadoop-common-2.7.7.jar
hadoop-hdfs-2.7.7.jar
htrace-core-3.1.0-incubating.jar

b) 根据使用场景配置properties文件

# 用于从netcat指定端口收集数据最终输出到HDFS中

# Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Sources
# a1.sources.r1
# 配置source类型/绑定主机ip/端口号
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# Sinks
# a1.sinks.k1
a1.sinks.k1.type = hdfs
# 设置hdfs文件路径,同时并设置了按照日期创建文件夹
a1.sinks.k1.hdfs.path = /flume/logs/%Y-%m-%d/%H-%M-%S
# 设置flume创建的hdfs文件前缀
a1.sinks.k1.hdfs.filePrefix = logs_%Y-%m-%d

# 以下三组参数的配置用于控制flume在hdfs中生成文件的滚动方式
# 满足以下三者中任何一个条件都会新生成hdfs文件
# 设置文件滚动的时间间隔,单位(second),置0表示关闭
a1.sinks.k1.hdfs.rollInterval = 10
# 设置文件滚动的最大size阈值,由于是hdfs sink故最好设置成Block Size的倍数
# 本次实验的hadoop版本为2.7.7(2.7.3之后默认Block Size为128MB,之前为64MB)
# 单位(bytes),置0表示关闭
a1.sinks.k1.hdfs.rollSize = 134217700
# 设置滚动文件存储的最大Event个数
# 此参数一般设置为0,即关闭,除非有严格生产需求并且知道Event大小能够自主控制
a1.sinks.k1.hdfs.rollCount = 0

# 设置flume每批次刷到hdfs中的Event个数(超过一定时长也会进行刷新,并非要等满一批次)
a1.sinks.k1.hdfs.batchSize = 100

# 设置hdfs文件格式,目前只支持(SequenceFile/DataStream/CompressedStream)
# CompressedStream类型需要配合hdfs.codeC参数来指定具体的压缩方式
# SequenceFile表示按照HDFS序列文件SequenceFile的方式进行压缩
# DataStream则表示不进行压缩
a1.sinks.k1.hdfs.fileType = DataStream

# 以下三组参数的配置配合转义序列(如%y %m %d %H %M %S等)能够自定义时间轮转最小刻度
# 设置hdfs时间向下取整
# 设置向下取整之后文件夹将按照一定时间大小的刻度进行创建文件夹
# 否则都是按照之前设置每分钟进行文件夹的创建
a1.sinks.k1.hdfs.round = true
# 设置hdfs时间向下取整的最小单元倍数
a1.sinks.k1.hdfs.roundValue = 30
# 设置hdfs时间向下取整的最小单位
a1.sinks.k1.hdfs.roundUnit = second

# 设定是否使用本地时间戳,默认为false(即使用Event的Header中的时间戳)
# 本次实验中Event的Header为空,需要使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true


# Channels
# 定义a2的channerls.c1的类型为memory,即使用内存作为缓存/最多缓存的Event个数/单次传输的Event个数
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100


# Bind
# 注意:source可以绑定多个channel,但是sink只能绑定单个channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

c) 使用此配置文件启动agent

启动脚本前保证HDFS集群正常运行

[tomandersen@hadoop101 flume-1.8.0]$ call-cluster.sh jps
----------hadoop103----------
18272 Jps
17794 DataNode
17987 NodeManager
18105 JobHistoryServer
17868 SecondaryNameNode
----------hadoop102----------
17826 DataNode
18457 Jps
17950 ResourceManager
18079 NodeManager
----------hadoop101----------
10321 DataNode
10785 Jps
10619 NodeManager
10205 NameNode

----------execute "jps" in cluster takes 6 seconds----------

[tomandersen@hadoop101 flume-1.8.0]$

在Flume安装路径下通过`bin/flume-ng`脚本启动agent

./bin/flume-ng agent -n a1 -c conf/ -f job/netcat-memory-hdfs.properties

d) 发送测试数据并检查HDFS中是否成功上传对应数据

发送测试数据

[tomandersen@hadoop101 ~]$ echo Hello World! | nc localhost 44444
OK
[tomandersen@hadoop101 ~]$ 
[tomandersen@hadoop101 ~]$

进入NameNode Web UI页面查看HDFS文件

查看HDFS文件

下载并查看查看HDFS文件内容

查看HDFS文件

End~

TomAndersen

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flume之HDFS Sink使用案例

前言操作系统：CentOS 7Java版本：1.8.0_221Flume版本：1.8.0HDFS版本：2.7.7Flume agent配置：Netcat TCP Source、Memory Channel、HDFS Sink具体步骤a) 拷贝Hadoop相关jar包至flume/lib/路径下在hadoop-2.7.7/share/路径下找到以下对应jar包，并将其拷贝至fl...
复制链接

扫一扫