大数据开发-Flume-接入Hive数仓搭建流程

最新推荐文章于 2024-11-18 15:32:43 发布

Hoult-吴邪

最新推荐文章于 2024-11-18 15:32:43 发布

阅读量478

点赞数 1

分类专栏：大数据开发-系列文章标签： flume

本文链接：https://blog.csdn.net/hu_lichao/article/details/110358689

版权

本文介绍了如何使用Flume实时流接入Hive数仓，重点讲解了taildir source配置、hdfs sink配置、Agent设置以及如何通过自定义拦截器解决Flume Agent中时间戳的问题。在测试过程中，使用netcat source和logger sink确保流程正确。文章适合对大数据处理感兴趣的读者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实时流接入数仓，基本在大公司都会有，在Flume1.8以后支持taildir source, 其有以下几个特点，而被广泛使用：

1.使用正则表达式匹配目录中的文件名
2.监控的文件中，一旦有数据写入，Flume就会将信息写入到指定的Sink
3.高可靠，不会丢失数据
4.不会对跟踪文件有任何处理，不会重命名也不会删除
5.不支持Windows，不能读二进制文件。支持按行读取文本文件

本文以开源Flume流为例，介绍流接入HDFS ,后面在其上面建立ods层外表。

1.1 taildir source配置

a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/hoult/servers/conf/startlog_position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 =/opt/hoult/servers/logs/start/.*log

1.2 hdfs sink 配置

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /user/data/logs/start/logs/start/%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = startlog.
# 配置文件滚动方式（文件大小32M）
a1.sinks.k1.hdfs.rollSize = 33554432
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.rollInterval = 0
a1.sinks.k1.hdfs.idleTimeout = 0
a1.sinks.k1.hdfs.minBlockReplicas = 1
# 向hdfs上刷新的event的个数
a1.sinks.k1.hdfs.batchSize = 100

最低0.47元/天解锁文章