大数据hadoop3.1.3——Flume面试题

本文详细介绍了企业中Flume数据传输的监控方法,包括使用Ganglia进行实时监控。此外,还深入讨论了Flume的Source、Sink和Channel的作用,如Source的exec和netcat类型,以及Flume的Channel Selectors、参数调优、事务机制和数据丢失问题。文章特别强调了Flume的事务机制保证了数据不丢失,但可能造成数据重复。
摘要由CSDN通过智能技术生成

企业真实面试题(重点)

1 你是如何实现Flume数据传输的监控的

使用第三方框架Ganglia实时监控Flume。

2 Flume的Source,Sink,Channel的作用?你们Source是什么类型?

1)作用

(1)Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy

(2)Channel组件对采集到的数据进行缓存,可以存放在Memory或File中。

(3)Sink组件是用于把数据发送到目的地的组件,目的地包括Hdfs、Logger、avro、thrift、ipc、file、Hbase、solr、自定义。

2)我公司采用的Source类型为:

(1)监控后台日志:exec

(2)监控后台产生日志的端口:netcat

Exec spooldir

3 Flume的Channel Selectors
在这里插入图片描述

4 Flume参数调优

1)Source

增加Source个(使用Ta

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值