Flume

最新推荐文章于 2024-06-28 22:13:28 发布

K. Bob

最新推荐文章于 2024-06-28 22:13:28 发布

阅读量1.8k

点赞数

分类专栏： Flume 文章标签： Flume

本文链接：https://blog.csdn.net/ThreeAspects/article/details/90216953

版权

Flume 是一个分布式、可靠的数据采集系统，用于收集、聚合和传输大量日志数据。它通过Event进行数据处理，支持多种Source和Sink类型，如Avro、Exec、Spooling Directory和Kafka。Flume利用Channel作为数据缓冲区，保证数据的可靠性，通过事务机制确保数据完整传输。同时，Flume 提供拦截器功能，允许用户自定义数据过滤和修饰。在面临内存占用高的问题时，可以通过调整配置参数进行优化。

摘要由CSDN通过智能技术生成

Flume是一个分布式、可靠和高可用的海量日志采集、配合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、HBASE、HIVE、kaflka等众多外部存储系统中。一般的采集需求，通过对Flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力，因此，Flume可以适用于大部分的日常数据采集场景。
事件（Event）是Flume的基本数据单元，Flume的数据由Event贯穿始终。它携带日志数据（字节数组形式）并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

Flume架构

在这里插入图片描述
各组件具体介绍如下：

events：Flume当中对数据的一种封装。是一个数据单元。flume传输数据最基本的单元
Interceptor：拦截器，主要作用是将采集到的数据根据用户的配置进行过滤和修饰
Channel Selector：通道选择器，主要作用是根据用户配置将数据放到不同的Channel当中
Channel：主要作用是临时的缓存数据
Sink Runner：sink的运行器，主要是通过它来驱动Sink Processor，Sink Processor驱动Sink来从Channel当中获取数据
Sink Processor：主要策略有，负载均衡，故障转移以及直通
Sink：主要作用是从Channel当中取出数据，并将数据放到不同的目的地

Flume分布式系统中最核心的角色是agent。Flume采集系统是由一个个agent所连接起来形成的。每一个agent相当于一个数据传递员，内部有三个组件：
1）Source：采集源，用于跟数据源对接，以获取数据
【avro source】
监听Avro 端口来接收外部avro客户端的事件流。利用Avro source可以实现多级流动效果，可以应用于分层收集数据，例如当有两层时，启动时先启动第二层（汇集收集层）再启动第一层。

【exec source】
执行某个命令或者脚本，并将其执行结果的输出作为数据源。

【spooling directory source】
将指定的文件加入到“自动搜集”目录中。flume会持续监听这个目录，把文件当做source来处理。

【kafka source】
Kafka Source是一个从Kafka读取消息的Apache Kafka消费者。如果有多个Kafka源运行，可以使用相同的Consumer Group配置它们，这样每个都将为主题读取一组唯一的分区。

2）Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据

Sink类型	说明
hdfs sink	将数据写到HDFS
avro sink	使用avro协议将数据发送给另一级的Flume
HBase sink	将数据写入到HBase中
Kafka sink	将数据写到Kafka中

3）Channel：agent内部的数据传输通道，用于从source将数据传递到sink。Channel可以用于内存缓存也可以用于文件缓存。
【file channel】
对数据持久化；基于WAL（预写式日志Write-Ahaad Log）实现。但是配置较为麻烦，需要配置数据目录和checkpoint目录；不同的file channel均需要配置一个checkpoint目录。
【memory channel】
不会持久化。消息存放在内存中，提供高吞吐，但提供可靠性；可能丢失数据。

Flume 使用事务性的方式保证传送Event整个过程的可靠性。 Sink 必须在Event 被存入 Channel 后，或者已经被传达到下一站agent里，又或者已经被存入外部数据目的地之后，才能把 Event 从 Channel 中 remove 掉。这样数据流里的 event 无论是在一个 agent 里还是多个 agent 之间流转，都能保证可靠。 Flume支持在本地保存一份文件 channel 作为备份，而memory channel 将event存在内存 queue 里，速度快，但丢失的话无法恢复。

多级Agent串联
在这里插入图片描述

#Name the components on this agent
a1.sources=r1
a1.sinks=k1
a1.channels=c1

#Describe/configure the source
a1.sources.r1.type=exec
a1.source.r1.command=tail -F /home/hadoop/log/test.log
a1.source.r1.channels=c1

#Describe the sink
a1.sinks.k1.type=hdfs
a1.sinks.k1.channel=c1
a1.sinks.k1.hdfs.path=/flume/events/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix=events-
a1.sinks.k1.hdfs.round=true
a1.sinks.k1.hdfs.roundValue=10
a1

最低0.47元/天解锁文章

K. Bob

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Flume

最近做的项目中用到了Flume，现学现卖，请多多指教。Flume介绍配置文件运行机制多级Agent串联Flume介绍 Flume是一个分布式、可靠和高可用的海量日志采集、配合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、HBASE、HIVE、kaflka等众多外部存储系统中。一般的采集需求，通过对Flume的简单配置即可实现。F...
复制链接

扫一扫

专栏目录