学习flume需要掌握flume的完整工作流程、各组件的作用以及二次开发,并且掌握flume的事物机制。
接下来我将讲述flume的
- 架构图
- 用法
- 事物机制
- 结合实际开发讲解flume的二次开发
flume的架构图
fluflume是分布式的日志收集系统,它将各个服务器中的数据收集起来并发送到指定的地方去,比如说发送到途中的HDFS中,简单来说flume就是收集日志的。
注:日志收集系统还有一个Logstash是一款轻量级的日志搜集处理框架,使用的是ruby写的会比较占用CPU,用来收集日志会比较麻烦。
flume的组件由source、channel、sink组成、Selector即Flume中的选择器,主要用在实现扇出过程中实现按照指定方式分发数据。Interceptor拦截器可以拦截Event,改变Event的体或头信息。Processor是Flume用于实现失败恢复 负载均衡的组件。