Flume系列：Flume组件架构

iwester

已于 2023-06-06 22:45:20 修改

阅读量854

点赞数 1

分类专栏： # Flume 文章标签： java hadoop 大数据 flume

于 2023-04-17 17:40:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/web_snail/article/details/130205331

版权

Flume 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

目录

Apache Hadoop生态-目录汇总-持续更新

一：Flume 概述

二：Flume 基础架构

1) Memory Channel

2) File Channel

3) Kafka Channel

Apache Hadoop生态-目录汇总-持续更新

系统环境：centos7

Java环境：Java8

一：Flume 概述

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单(实时增量添加到hdfs)。

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS(只能识别文本文件)

二：Flume 基础架构

2.1：Agent

Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。

Agent 主要有 3 个部分组成，Source、Channel、Sink。

2.2：Source

Source 是负责接收数据到 Flume Agent 的组件。

Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory(采集文件)、netcat(采集端口数据)、taildir、sequence generator、syslog、http、legacy

2.3：Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。

Sink 组件目的地包括 hdfs、logger(常用语测试)、avro、thrift、ipc、file、HBase、solr、自定义。

2.4：Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个Sink 的读取操。

Flume Channel：Memory Channel(内存) 和 File Channel(文件) 以及 Kafka Channel。

1) Memory Channel

Memory Channel 存储在内存是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用

2) File Channel

File Channel 存储在磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据

FileChannel底层原理

FileChannel优化

通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。

checkpointDir和backupCheckpointDir也尽量配置在不同硬盘对应的目录中，保证checkpoint坏掉后，可以快速使用backupCheckpointDir恢复数据。

3) Kafka Channel

Kafka Channel：数据存储在kafka里，存储在磁盘，如果sink是kafka的情况，采用Kafka Channel会少一步sink

注意：

在Flume1.7以前，Kafka Channel很少有人使用，因为发现parseAsFlumeEvent这个配置起不了作用。也就是无论parseAsFlumeEvent配置为true还是false，都会转为Flume Event。这样的话，造成的结果是，会始终都把Flume的headers中的信息混合着内容一起写入Kafka的消息中

2.5：Event

面向任务的，每个任务开启对应的agent

Flume 数据传输的基本单元，以 Event的形式将数据从源头送至目的地。

Event 由 Header(标记区分) 和 Body(数据本身) 两部分组成，Header 用来存放该 event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。

实际工作中数据源的种类比较多，比如一个文件中有订单，点击数据，支付数据，可以通过event设置不同的Header头，然后控制传输到不同的Channel往下执行

source对接数据源将数据读取过来，source将一行数据封装成一个event事件，传输到channel,sink拿到事件后会做解析（序列化）

Flume系列

Apache Hadoop生态部署-Flume采集节点安装

Flume系列：Flume组件架构

Flume系列：Flume Source使用

Flume系列：Flume Channel使用

Flume系列：Flume Sink使用

Flume系列：Flume 自定义Interceptor拦截器

Flume系列：Flume通道拓扑结构

Flume系列：Flume常用采集通道案例

Flume系列：案例-Flume复制(Replicating)和多路复用(Multiplexing)

Flume系列：案例-Flume负载均衡和故障转移

Flume系列：案例-Flume 聚合拓扑(常见的日志收集结构)

Flume系列：Flume数据监控Ganglia

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flume系列：Flume组件架构

Flume系列：Flume组件架构
复制链接

扫一扫

专栏目录

iwester CSDN认证博客专家 CSDN认证企业博客

码龄8年

78: 原创

6万+: 周排名

68万+: 总排名

45万+: 访问

: 等级

2458: 积分

63: 粉丝

126: 获赞

42: 评论

482: 收藏

私信

关注

热门文章

分类专栏

Hadoop生态 20篇
sqoop 2篇
ZooKeeper 2篇
Kafka 1篇
Flume 11篇
Maxwell 3篇
Laravel 3篇
Docker 12篇
deepin 2篇
Linux 15篇
Nginx 7篇
Redis 8篇
Git 6篇
Mysql 3篇
Wechat 1篇

最新评论

Apache Hadoop生态-目录汇总-持续更新
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 毕业季征文·未来可期: https://activity.csdn.net/creatActivity?id=10429?utm_source=csdn_ai_ada_redpacket 可持续能源技术真的能改变世界吗？: https://activity.csdn.net/creatActivity?id=10425?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket
Centos7 磁盘分区与挂载步骤详解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
安装Centos7步骤详解 -- 摘自鸟哥私房菜
zjnbxwp: 说的很详细
nginx开启gzip
她是月光好悲凉: nginx.conf文件，在conf目录下。是nginx的配置文件。
nginx开启gzip
流浪的特码头: 这个单个server块是那个文件

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

iwester 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。