flume基础总结

最新推荐文章于 2021-07-15 15:05:20 发布

未来大数据工程师

最新推荐文章于 2021-07-15 15:05:20 发布

阅读量731

点赞数

文章标签： flume 大数据

本文链接：https://blog.csdn.net/qq_43797434/article/details/108245182

版权

本文是关于Apache Flume的详细教程，涵盖了从基础概念到高级特性的全面介绍。Flume是一个用于大数据收集、聚合和传输的系统。文章首先解释了Flume的定义、基础架构，包括Agent、Sources、Sinks和Channels。接着，通过实例讲解了如何配置和使用Flume，包括不同类型的Sources、Sinks和Channel，以及如何启动监听。最后，深入探讨了Flume的进阶功能，如监控、事务、复制、负载均衡、故障转移和聚合等。

摘要由CSDN通过智能技术生成

第一章 Flume概述

1.1 Flume定义

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

为什么选用flume

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS

1.2 Flume基础架构

Flume组成架构如下图所示：
flume基础架构

1.2.1 Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。

Agent主要有3个部分组成，Source、Channel、Sink。

1.2.2 Sources

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、 taildir 、sequence generator、syslog、http、legacy。

1.2.3 Sinks

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

1.2.4 Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带两种Channel：Memory Channel和File Channel。

Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。

File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

传输单元，Flume数据传输的基本单元，以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组成，Header用来存放该event的一些属性，为K-V结构，Body用来存放该条数据，形式为字节数组。

第二章 Flume入门

2.1 agent部件名配置

a1.sources = r1
a1.sinks = k1
a1.channels = c1

由上述代码可知，source，channel，sink都可以有多个，中间以空格隔开

2.2 Sources的脚本说明

2.2.1 netcat

a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

参数说明：

type表示sources的类型，用什么类型的sources就写什么

bind表示ip地址，如果什么都可以连可以用0.0.0.0

port表示端口号（0-65535）：尽量选择大一点的，不能选择已经被占用的端口

2.2.2 exec

exec source，适用于监控一个实时追加的文件，exec即execute执行的意思。表示执行Linux命令来读取文件。

最低0.47元/天解锁文章

未来大数据工程师

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
flume基础总结

第一章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS1.2 Flume基础架构Flume组成架构如下图所示：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S4DIIAnX-1598437334965)(D:\CSDN\assets\flume基础架构.png)]
复制链接

扫一扫