大数据下的日志-flume（一）简介及例子

最新推荐文章于 2024-06-28 22:13:28 发布

ESOO

最新推荐文章于 2024-06-28 22:13:28 发布

阅读量4k

点赞数

分类专栏：架构大数据下的日志文章标签：分布式云计算大数据

本文链接：https://blog.csdn.net/xvshu/article/details/49849955

版权

Flume是一个用于高效、可靠、分布式的大数据日志收集系统。它以agent为核心，包含Source、Channel和Sink三个组件，通过事件(Event)进行数据传输。Flume提供多种内置组件类型，支持灵活配置，能实现高可靠性、可恢复性的日志处理。在实际应用中，可通过配置实现多级流、Fan-in、Fan-out等复杂场景。本文介绍了Flume的基本概念和一个简单的配置示例。

摘要由CSDN通过智能技术生成

概念

有很多人解释flume是什么，听着都很高大上，但是，这个世界原本就很简单，没有必要这么理解，我们今天就听听我对flume的定义，flume是已经写好的一组代码，用来传输数据用的，和java file的操作一样，是不是听起来更容易了一些，下面我们来看看它的其他定义，也会发现，没有那么陌生了。

1、Flume 的一些核心概念：

组件	功能
Agent	使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client	生产数据，运行在一个独立的线程。
Source	从Client收集数据，传递给Channel。
Sink	从Channel收集数据，运行在一个独立线程。
Channel	连接 sources 和 sinks ，这个有点像一个队列。
Events	可以是日志记录、 avro 对象等。

1.1 数据流模型

Flume以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成，如下图：

图一

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source，比如上图中的Web Server生成。当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。
很直白的设计，其中值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase，甚至是另外一个Source等等。
如果你以为Flume就这些能耐那就大错特错了。Flume支持用户建立多级流，也就是说，多个agent可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes。如下图所示：

1.2 高可靠性

作为生产环境运行的软件，高可靠性是必须的。
从单agent来看，Flume使用基于事务的数据传递方式来保证事件传递的可靠性。Source和Sink被封装进一个事务。事件被存放在Channel中直到该事件被处理，Channel中的事件才会被移除。这是Flume提供的点到点的可靠机制。
从多级流来看，前一个agent的sink和后一个agent的source同样有它们的事务来保障数据的可靠性。

1.3 可恢复性

还是靠Channel。推荐使用FileChannel，事件持久化在本地文件系统里(性能较差)。

2、配置示例

2.1 简单实例

最低0.47元/天解锁文章

ESOO

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录