个人项目中用到的Flume 各组件,以及Put 事务和Take 事务介绍

本文介绍了Flume的taildir source特性,包括断点续传和多目录支持,以及file channel、memory channel和kafka channel的优缺点。在事务方面,源到通道采用Put事务,通道到Sink采用Take事务。针对taildir source可能出现的重复数据问题,提出了处理策略。在实际应用中,根据需求选择不同类型的通道,如金融行业推荐使用File Channel,而普通日志处理可选Memory Channel。
摘要由CSDN通过智能技术生成

1. taildir source

  1. 断点续传、多目录
  2. 哪个版本产生的?Apache1.7、CDH1.6
  3. 在没有断点续传功能时怎么做的?自定义source
  4. taildir挂了怎么办?不会丢数:断点续传。Taildir Source 维护了一个 json 格式的 position File,其会定期的往 position File
    中更新每个文件读取到的最新的位置,因此能够实现断点续传。;重复数据:可能发生,但概率很小。
  5. 怎么处理重复?生产环境通常不处理,因为出现概率较低,处理会影响效率。处理的话:在taildir source里面自定义事务,影响效率。通过下一级处理(hive dwd、spark streaming等)、去重手段(groupby、 开窗取窗口第一条、redis)
  6. taildir source是否支持递归遍历文件夹读取文件?不支持。但可以通过自定义 遍历文件夹 + 读取文件。

2. file channel/memory channel/kafka channel

  1. File Channel
    • 数据存储在磁盘,可靠性高,但传输速度低
    • 默认容量100W个event
    • File Channel可以通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。
  2. Memory Channel
    • 数据存储于内存中,可靠性差,但传输效率
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值