使用flume将avro文件上传到hdfs上
场景介绍:把一个文件夹下的avro文件上传到hdfs上。source使用的是spooldir,sink使用的是hdfs。
配置 flume.conf
# memory channel called ch1 on agent1
agent1.channels.ch1.type = memory
# source
agent1.sources.spooldir-source1.channels = ch1
agent1.sources.spooldir-source1.type = spooldir
agent1.sources.spooldir-source1.spoolDir=/home/yang/data/avro/
agent1.sources.spooldir-source1.basenameHeader = true
agent1.sources.spooldir-source1.deserializer = AVRO
agent1.sources.spooldir-source1

本文介绍了如何使用Flume将Avro文件从本地文件夹传输到HDFS。在Flume配置文件`flume.conf`中,需要注意source的deserializer需设置为处理Avro文件,并且sink的部分要指定文件类型为avro,同时在文件名后添加`.avro`后缀。为了解决序列化问题,需要从github下载特定的序列化类源码,编译成jar包,并放入Flume的lib目录。
最低0.47元/天 解锁文章
332

被折叠的 条评论
为什么被折叠?



