1 Flume组成,Put事务,Take事务
1.1 Flume组成
一、taildir source
(1)特性:
支持断点续传、多目录
(2)是由哪个flume版本产生的?
Apache1.7、CDH1.6
(3)没有断点续传功能时怎么做的?
使用自定义
(4)taildir挂了怎么办?
不会丢数:断点续传,但是会造成重复数据:
(5)怎么处理重复数据?
①不处理
生产环境通常不处理,因为会影响传输效率
②处理:
·自身:在taildirsource里面增加自定义事务
·找兄弟:下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开窗取窗口第一条、redis)
(6)taildir source 是否支持递归遍历文件夹读取文件?
不支持。 可以自定义,递归遍历文件夹 + 读取文件
二、file channel /memory channel
&