一:Flume介绍
1.1、在hadoop生态圈中,Flume的位置。
1.2、Flume是什么?
有Cloudera公司开源
分布式、可靠、高可用的海量日志采集系统
数据源可定制,可扩展。
数据存储系统可定制,可扩展。
中间件:屏蔽了数据源和数据存储系统的异构性。
1.3、Flume的两个版本?
Flume OG
OG:“Original Generation"
0.9x或cdh3以及更早的版本。
有agent、collector、master等组件构成。
Flume NG
NG:“Next/New Generation"
1.x或cdh4以及之后的版本。
有Agent/client等组件构成。
为什么要退出NG版本?
精简代码
架构简化
1.4、FlumeOG存在的问题
Flume OG代码工程臃肿
核心组件设计不合理
核心配置不标准
尤其是在Flume OG的最后一个发行版本0.94.0中,日志传输不稳定的现象尤为严重。
Flume NG的特点
NG只有一种角色的节点:代理节点(agent)
没有collector,master节点。这是核心组件最核心的变化。
去除了physical nodes,local nodes 的概念和相关内容。
agent节点的组成也发生了变化,脱离了zookeeper。
1.5、Flume流程图