flume是什么---前言一

最新推荐文章于 2023-10-13 16:00:15 发布

ペ你值H

最新推荐文章于 2023-10-13 16:00:15 发布

阅读量169

点赞数 2

分类专栏：大数据 --- Flume 文章标签： flume

本文链接：https://blog.csdn.net/ZHB__/article/details/108350428

版权

大数据 --- Flume 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Flume的前言

flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过程中使用的便利性得到很大的改善，现已成为apache top项目之一.

补充：cloudera公司的主打产品是CDH（hadoop的一个企业级商业发行版）

1.什么是Flume

Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。flume具有高可用，分布式和丰富的配置工具，其结构如下图所示：

Flume：是一个数据采集工具；可以从各种各样的数据源（服务器）上采集数据传输（汇聚）到大数据生态的各种存储系统中（Hdfs、hbase、hive、kafka）；

开箱即用！（安装部署、修改配置文件）

2.Flume的特性

Flume是一个分布式
可靠、和高可用的海量日志采集、汇聚和传输的系统。

Flume可以采集文件，socket数据包（网络端口）、文件夹、kafka、mysql数据库等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中

一般的采集、传输需求，通过对flume的简单配置即可实现；不用开发一行代码！

Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

Flume核心概念

agent

Flume中最核心的角色是agent，flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。

对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据，并发往下一个目的地

每一个agent相当于一个数据(被封装成Event对象)传递员，内部有三个组件：

Source：采集组件，用于跟数据源对接，以获取数据；它有各种各样的内置实现；

Sink：下沉组件，用于往下一级agent传递数据或者向最终存储系统传递数据

Channel：传输通道组件，用于从source将数据传递到sink

2.Event：flume内部数据传输的封装形式

数据在Flum内部中数据以Event的封装形式存在。

因此，Source组件在获取到原始数据后，需要封装成Event放入channel；

Sink组件从channel中取出Event后，需要根据配置要求，转成其他形式的数据输出。

3.Transaction：事务控制机制

Flume使用两个独立的事务分别负责从Soucrce到Channel，以及从Channel到Sink的event传递。比如spooling directory source 为文件的每一个event batch创建一个事务，一旦事务中所有的事件全部传递到Channel且提交成功，那么Soucrce就将event batch标记为完成。

同理，事务以类似的方式处理从Channel到Sink的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚，且所有的事件都会保持到Channel中，等待重新传递。

说明：在任何时刻，Event至少在一个Channel中是完整有效的