大数据面试题之葵花宝典------flume

本文详细探讨了Flume的组件,包括Put和Take事务、拦截器、Channel选择器和监控器。同时,讨论了Flume如何防止数据丢失以及内存管理。此外,还涉及了FileChannel的优化策略,是大数据面试准备的宝贵资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Flume组成,Put事务,Take事务
1、Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现
断点续传。
2、File Channel:数据存储在磁盘,宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要求高的场景
比如,金融行业。
3、Memory Channel:数据存储在内存中,宕机数据丢失。传输速率快。适合对数据传输可靠性要求不高的场景,
比如,普通的日志数据。
4、Kafka Channel:减少了Flume的Sink阶段,提高了传输效率。           
5、Source到Channel是Put事务
6、Channel到Sink是Take事务
2. Flume拦截器
(1)拦截器注意事项
	ETL拦截器和区分类型拦截器。
    采用两个拦截器的优缺点:优点,模块化开发和可移植性;缺点,性能会低一些
(2)自定义拦截器步骤
    a)实现 Interceptor
	b)重写四个方法
     		initialize 初始化
     		public Event intercept(Event event) 处理单个Event
    		public List<Event> intercept(List<Event> events) 处理多个Event,在这个方法中
    	    调用Event intercept(Event event)
    		close 方法
	c)静态内部类,实现Interceptor
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值