Flume简单介绍

最新推荐文章于 2024-07-18 21:37:27 发布

人间怪物

最新推荐文章于 2024-07-18 21:37:27 发布

阅读量340

点赞数 1

文章标签： flume是什么 flume使用案例 flume核心组件

本文链接：https://blog.csdn.net/qq_41975699/article/details/85172531

版权

Apache Flume是一个高可用、高可靠的数据采集系统，用于大规模日志聚合和传输。其核心组件包括Source（数据采集）、Channel（数据缓冲）和Sink（数据输出）。Flume支持多种数据源和目标，如HDFS、HBase和Kafka。本文介绍了Flume的安装过程、使用案例，包括文件监控、级联Agent和高可用配置。

摘要由CSDN通过智能技术生成

一、是什么？

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方（Socket数据包、文件、文件夹、kafka），用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（HDFS、hbase、hive、kafka等众多外部存储系统）（可定制）的能力。Flume于2009捐赠给apache软件基金会，成为hadoop相关组件之一。

二、Flume的结构

Flume运行的核心就是Agent，Flume以agent为最小的独立运行单位。Agent有三个核心组件分别是Source、Channel、Sink。结构图如下：

在这里插入图片描述

Event：消息、事件，在Flume数据传输的单位是event，event由消息头和消息体组成。Flume将解析的日志数据、接收到的TCP数据等分装成events在内部Flow中传递。

Flow： Event从源点到达目的点的迁移的抽象。

Collector:另一种Flume进程（Agent），它用于接收Flume agents发送的消息，相对于Agent，Collector“收集”的消息通常来自多个Server，它的作用就是对消息进行“聚合”、“清洗”、“分类”、“过滤”等，并负责保存和转发给downstream。

Source:Flume内部组件之一，从数据发送器接收数据，解析原始数据并封装成event、或者是接收Client端发送的Flume Events；对于Flume进程而言，source是整个数据流（Data Flow）的最前端，用于“产生”events，然后将事件推入Channel中。

Channel:Flume内部组件之一，用于“传输”events的通道，Channel通常具备“缓存”数据、“流量控制”等特性；

Sink:Flume内部组件之一，用于将内部的events通过合适的协议发送给第三方组件，比如Sink可以将events写入本地磁盘文件、基于Avro协议通过TCP方式发给其他Flume，可以发给kafka等其他数据存储平台等；Sink最终将events从内部数据流中移除。

三、Flume安装

前提：已经存在hadoop环境。
安装包地址：http://archive.cloudera.com/cdh5/cdh/5/

1.将下载好的安装包存放到指定的目录，在linux系统中进行解压操作：

tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/

2.修改配置文件:

 cd  /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf  #flume配置文件所在位置
 cp  flume-env.sh.template flume-env.sh
 vim flume-env.sh
 export JAVA_HOME=jdk所在路径

3.先配置一个采集方案，启动并测试flume是否可以成功运行

在flume的配置文件中创建一个netcat-logger.conf文件
在这里插入图片描述

4.启动配置文件

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我

最低0.47元/天解锁文章

人间怪物

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫