关于面试--【flume介绍已官网为基础】

最新推荐文章于 2024-05-01 17:41:27 发布

轻风细雨

最新推荐文章于 2024-05-01 17:41:27 发布

阅读量2.8k

点赞数

分类专栏： flume 面试题

本文链接：https://blog.csdn.net/hxiaowang/article/details/106807193

版权

面试题同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

flume

3 篇文章 0 订阅

订阅专栏

在官网上有很多的介绍所以面试的时候少点自己理解多说写官网上已经有的，给面试会带来更多亮点。

flume介绍

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. 
It has a simple and flexible architecture based on streaming data flows. 
It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. 
It uses a simple extensible data model that allows for online analytic application.

Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。（这样说不香吗？不要自己添加很多别的对的还好，有很多人就是瞎说，弄巧成拙。）

Agent component diagram

2）基础架构

Client：Client生产数据，运行在一个独立的线程。

　　Event： 一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）
　　Flow： Event从源点到达目的点的迁移的抽象。
　　Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一agent，但是可以在一个agent中包含多个sources和sinks。）
　　Source： 数据收集组件。（source从Client收集数据，传递给Channel）
　　Channel： 中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）
　　Sink： 从Channel中读取并移除Event， 将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

3Agent结构　　

　　Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具，含有三个核心组件，分别是 source、 channel、 sink。通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示。

Agent component diagram

3.2、source

Source是数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中。 Flume提供了很多内置的
　　Source，支持 Avro， log4j， syslog 和 http post(body为json格式)。可以让应用程序同已有的Source直接打交道，如AvroSource，
　　SyslogTcpSource。如果内置的Source无法满足需要， Flume还支持自定义Source。

3.3、Channel

　　Channel是连接Source和Sink的组件，大家可以将它看做一个数据的缓冲区（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直
　　到Sink处理完该事件。介绍两个较为常用的Channel， MemoryChannel和FileChannel。

3.4、Sink

　　Sink从Channel中取出事件，然后将数据发到别处，可以向文件系统、数据库、 hadoop存数据，也可以是其他agent的Source。在日志数据较少时，可
　　以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。

轻风细雨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于面试--【flume介绍已官网为基础】

在官网上有很多的介绍所以面试的时候少点自己理解多说写官网上已经有的，给面试会带来更多亮点。flume介绍Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming da
复制链接

扫一扫

专栏目录