Flume的安装及简单的使用

最新推荐文章于 2024-05-11 19:20:03 发布

Smling120

最新推荐文章于 2024-05-11 19:20:03 发布

阅读量250

点赞数

文章标签： flume big data apache

原文链接：https://www.cnblogs.com/cn-7876/p/7757760.html

版权

1.Flume简介

Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据，同时Flume提供对数据的简单处理，并将数据处理结果写入各种数据接收方的能力。
Flume作为Cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。2010年11月Cloudera开源了Flume的第一个可用版本0.9.2，这个系列版本被统称为Flume-OG。随着Flume功能的扩展，Flume-OG代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在Flume-OG的最后一个发行版本 0.94.0中，日志传输不稳定的现象尤为严重。为了解决这些问题，2011年10月Cloudera重构了核心组件、核心配置和代码架构，重构后的版本统称为Flume-NG。改动的另一原因是将 Flume 纳入 Apache 旗下，Cloudera Flume改名为Apache Flume。

2.Flume工作原理

Flume的数据流由事件（Event）贯穿始终。事件是Flume的基本数据单位，它携带日志数据（字节数组形式）并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入（单个或多个）Channel中。可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。以下是Flume的一些核心概念：
（1）Events：一个数据单元，带有一个可选的消息头,可以是日志记录、avro 对象等。
（2）Agent：JVM中一个独立的Flume进程，包含组件Source、Channel、Sink。
（3）Client：运行于一个独立线程，用于生产数据并将其发送给Agent。
（4）Source：用来消费传递到该组件的Event,从Client收集数据，传递给Channel。
（5）Channel：中转Event的一个临时存储，保存Source组件传递过来的Event，其实就是连接 Source 和 Sink ，有点像一个消息队列。
（6）Sink：从Channel收集数据，运行在一个独立线程。
Flume以Agent为最小的独立运行单位，一个Agent就是一个JVM。单Agent由Source、Sink和Channel三大组件构成，如下图所示：

这里写图片描述

值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source、Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上；Sink可以把日志写入HDFS、HBase、ES甚至是另外一个Source等等。Flume支持用户建立多级流，也就是说多个Agent可以协同工作,如下图所示:
这里写图片描述

3.系统环境

主机名称	操作系统	Java版本	Fiume版本
hadoop	centos7	Java1.8+	1.7.0

**系统需求：**Flume需要Java 1.6及以上（推荐1.8），对Agent监控目录的读写权限。

4.下载及安装

1.Flume

到Flume官网上Download — Apache Flume下载软件安装包，如图：

这里写图片描述

可以在Windows下下载完成，通过xftp上传至hadoop根目录下，也可以在图片上箭头指向的版本，点击“右键”，复制链接地址，在hadoop下通过wget安装

下载、解压

$ wget http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
$ tar -xzf apache-flume-1.7.0-bin.tar.gz
$ mv apache-flume-1.7.0-bin flume

2.jdk1.8的安装

1.到jdk官网Java Downloads | Oracle 下载软件安装包，如图：

这里写图片描述

在Windows下下载完成，通过xftp上传至hadoop根目录下
首先先卸载虚拟机自带的openjdk，通过如下命令

$ sudo yum -y remove java*

Smling120

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flume的安装及简单的使用

1.Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据，同时Flume提供对数据的简单处理，并将数据处理结果写入各种数据接收方的能力。Flume作为Cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。2010年11月Cloudera开源了Flume的第一个可用版本0.9.2，这个系列版本被统称为Flume-OG。随着Flume功能的扩展，Flume-OG代码工程臃肿、核心组
复制链接

扫一扫