【大数据面试题】(六)Flume 相关面试题总结_flume 和 kafka 采集日志的区别,采集日志时中断了,如何记录之前的日志

本文详细介绍了Flume的数据传输原理,特别是source、channel(如FileChannel和MemoryChannel)以及sink的事务处理机制。重点讲解了Flume如何确保数据安全性和监控方法,以及如何进行性能调优。此外,还提到了进阶课程资源,提供全面的大数据学习路径。
摘要由CSDN通过智能技术生成

sink :把数据发送到目的地
常用 source 类型 :
1、 监控文件 :exec
2、监控目录 :spooldir

七、为什么使用Flume?

在这里插入图片描述

八、Flume组成架构?

在这里插入图片描述
关于flume事务

flume要尽可能的保证数据的安全性,其在source推送数据到channel以及sink从channel拉取数据时都是以事务方式进行的。因为在agent内的两次数据传递间都会涉及到数据的传送、从数据上游删除数据的问题;就比如sink从channel拉取数据并提交到数据下游之后需要从channel中删除已获取到的批次数据,其中跨越了多个原子事件,故而需要以事务的方式将这些原子事件进一步绑定在一起,以便在其中某个环节出错时进行回滚防止数据丢失。所以在选用file channel时一般来说是不会丢失数据的。

channel : 是位于 source 和 sink 之间的缓冲区。
1 ,flume 自带两种缓冲区,file channel 和 memory channel
2 ,file channel : 硬盘缓冲区

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值