Flume 组成，Put 事务，Take 事务

最新推荐文章于 2024-11-03 16:56:30 发布

大数据盼盼

最新推荐文章于 2024-11-03 16:56:30 发布

阅读量70

点赞数

文章标签： flume 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_66455465/article/details/130121133

版权

1.taildir source

1.断点续传、多目录

2.哪个 Flume 版本产生的？ Apache1.7 、 CDH1.6

3.没有断点续传功能时怎么做的？自定义

4.taildir 挂了怎么办？不会丢数：断点续传

5.怎么处理重复数据？

不处理：生产环境通常不处理，出现重复的概率比较低。处理会影响传输效率。

处理

自身：在 taildirsource 里面增加自定义事务，影响效率

找兄弟：下一级处理（hive dwd sparkstreaming flink 布隆）、去重手段（groupby、开窗取窗口第一条、redis ）

6.taildir source 是否支持递归遍历文件夹读取文件？不支持。

自定义递归遍历文件夹 + 读取文件

2.file channel /memory channel/kafka channel

1.File Channel

数据存储于磁盘，优势：可靠性高；劣势：传输速度低

默认容量：100 万 event

注意：FileChannel 可以通过配置 dataDirs 指向多个路径，每个路径对应不同的硬盘，增

大 Flume 吞吐量。

2.Memory Channel

数据存储于内存，优势：传输速度快；劣势：可靠性差

默认容量：100 个 event

3.Kafka Channel

数据存储于 Kafka ，基于磁盘；

优势：可靠性高；

传输速度快 Kafka Channel 大于 Memory Channel + Kafka Sink 原因省去了 Sink 阶段

Kafka Channel 哪个版本产生的？

Flume1.6 版本产生 = 》并没有火；因为有 bug event(header body )

ture 和 false 控制是否包含 header 信息，很遗憾，都不起作用。增加了额外清洗的工作量。

Flume1.7 解决了这个问题，开始火了。

生产环境如何选择

如果下一级是 Kafka ，优先选择 Kafka Channel

如果是金融、对钱要求准确的公司，选择 File Channel

如果就是普通的日志，通常可以选择 Memory Channel

每天丢几百万数据 pb 级

3.HDFS sink

1.时间（半个小时） or 大小 128m 、 event 个数（0 禁止）

具体参数：hdfs.rollInterval=1800 ， hdfs.rollSize=134217728 ， hdfs.rollCount =0

4.事务

Source 到 Channel 是 Put 事务

Channel 到 Sink 是 Take 事务

大数据盼盼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据盼盼 CSDN认证博客专家 CSDN认证企业博客

码龄3年

31: 原创

132万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

338: 积分

38: 粉丝

18: 获赞

2: 评论

17: 收藏

私信

关注

热门文章

分类专栏

SparkSql 1篇

最新评论

Hbase特点
CSDN-Ada助手: 很棒的博客，对Hbase的特点进行了简洁明了的介绍。希望你能够继续写出更多关于Hbase的优劣分析和使用技巧，让读者更好地了解和使用这个强大的数据库。另外，补充一下Hbase的数据模型和架构设计也是一个很好的扩展方向。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434
Hbase的写逻辑
CSDN-Ada助手: 恭喜您写出了关于Hbase写逻辑的精彩博客！不仅内容深入浅出、逻辑清晰，而且对读者的帮助非常大。希望您继续保持创作的热情，为我们带来更多有价值的文章。接下来，建议您可以探讨一下Hbase在大数据场景下的应用案例或者是结合实际场景来分析一下Hbase的性能优化。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148 看奖励名单。
Hbase 架构各个角色的功能以及使用场景
CSDN-Ada助手: 非常感谢用户的分享，这篇博客对于理解 Hbase 架构各个角色的功能以及使用场景非常有帮助。很高兴看到用户持续创作，希望能够继续分享更多关于 Hbase 的知识和经验，让更多人受益。建议下一步可以深入探讨 Hbase 的性能优化和实战经验，期待用户的精彩发表。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。