Flume组成,Put事务,Take事务,拦截器,选择器和监控器

本文详细介绍了Flume的组成,包括taildir source、file channel和HDFS sink,强调了其事务机制,Put事务从Source到Channel,Take事务从Channel到Sink。此外,讨论了Flume拦截器的使用和自定义,以及监控器在性能优化中的作用。最后,解释了Flume如何通过事务确保数据不丢失,但可能产生重复数据的情况。
摘要由CSDN通过智能技术生成

1 Flume组成,Put事务,Take事务

1.1 Flume组成

一、taildir source

(1)特性:

        支持断点续传、多目录

(2)是由哪个flume版本产生的?

        Apache1.7、CDH1.6

(3)没有断点续传功能时怎么做的?

        使用自定义

(4)taildir挂了怎么办?

        不会丢数:断点续传,但是会造成重复数据:

(5)怎么处理重复数据?

   ①不处理

        生产环境通常不处理,因为会影响传输效率

   ②处理:

·自身:在taildirsource里面增加自定义事务

·找兄弟:下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开窗取窗口第一条、redis)

(6)taildir source 是否支持递归遍历文件夹读取文件?

        不支持。  可以自定义,递归遍历文件夹 + 读取文件

二、file channel /memory channel

&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值