玩转flume+Kafka配置

最新推荐文章于 2024-07-23 08:03:31 发布

liu857279611

最新推荐文章于 2024-07-23 08:03:31 发布

阅读量4.9k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/liu857279611/article/details/72457529

版权

本文介绍了Flume的基本概念、设计目标和核心架构，详细讲解了如何配置Flume以实现与Kafka的集成。通过配置不同模式，如扫描指定文件、目录新增文件，特别是重点介绍了与Kafka结合的第一种模式。在确保Zookeeper和Kafka运行正常后，启动Flume并使用Kafka Consumer验证数据传输。文章最后展示了整个流程图，并指出这仅是Flume入门，后续将深入探讨更多配置技巧和源码分析。

摘要由CSDN通过智能技术生成

一、FLUME介绍

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

设计目标：

(1) 可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。

(2) 可扩展性

Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问题。

(3) 可管理性

所有agent和colletor由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提供了web 和shell script command两种形式对数据流进行管理。

(4) 功能可扩展性

用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file， syslog等），collector和storage（file，HDFS等）。

二、Flume 的一些核心概念：

组件名称功能介绍

Agent代理	使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client客户端	生产数据，运行在一个独立的线程。
Source源	从Client收集数据，传递给Channel。
Sink接收器	从Channel收集数据，进行相关操作，运行在一个独立线程。
Channel通道	连接 sources 和 sinks ，这个有点像一个队列。
Events事件	传输的基本数据负载。

三、Flume的整体构成图

Paste_Image.png

注意

最低0.47元/天解锁文章

liu857279611

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
玩转flume+Kafka配置

一、FLUME介绍Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。设计目标：(1) 可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据a
复制链接

扫一扫

专栏目录