Flume原理篇

最新推荐文章于 2022-07-02 06:00:00 发布

听挽风讲大数据

最新推荐文章于 2022-07-02 06:00:00 发布

阅读量483

点赞数

分类专栏： Flume 文章标签： Flume架构 Source Channel Sink Flume OG和Flume NG的对比

本文链接：https://blog.csdn.net/huahuaxiaoshao/article/details/90260150

版权

1 Flume简介

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
当前Flume有两个版本，Flume0.9x版本之前的统称为Flume OG (Flume original generation)，Flume1.x版本被统称为Flume NG (Flume next generation)。

2 Flume OG

2.1 Flume OG的设计目标

（1）可靠性：当节点出现故障时，日志能够被传送到其他节点上而不丢失。Flume提供了三种级别的可靠性保障，从强到弱依次为：end-to-end（收到数据Agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送）；store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送）；best effort（数据发送到接收方后，不会进行确认）。
（2）可扩展性：Flume采用了三层架构，分别为Agent、Collector和Storage，每一层均可以水平扩展。其中，所有Agent和Collector由Master统一管理，这使得系统容易监控和维护，且Master允许有多个（使用Zookeeper进行管理和负载均衡），这就避免了单点故障问题。
（3）可管理性：所有Agent和Collector由Master统一管理，这使得系统便于维护。多Master情况，Flume利用Zookeeper和gossip，保证动态配置数据的一致性。用户可以在Master上查看每个数据源或者数据流执行情况，且可以对每个数据源配置和动态加载。Flume提供了web和shell scrip command两种形式对数据源进行管理。
（4）功能可扩展性：用户可以根据需要添加自己的Agent、Collector或者Storage。此外，Flume自带了很多组件，包括各种Agent（file，syslog等），Collector和Storeage（file、HDFS等）

2.2 Flume OG架构

（1）Agent
      Agent用于采集数据，Agent是Flume中产生数据流的地方，同时Agent会产生的数据流传输到Collector。通常由source和sink两部分组成：
      ① source用于获取数据，可从文本文件、syslog和HTTP等获取数据；
      ② sink将source获得的数据进一步传输给后面的Collector。
（2）Collector
      Collector用于对数据进行聚合（数据收集器），往往会产生一个更大的数据流，然后加载到storage（存储）中，比如HDFS和HBase等。
引入Collector的原因：

最低0.47元/天解锁文章

听挽风讲大数据

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flume原理篇

1 Flume简介      Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。     &nbsp...
复制链接

扫一扫