Flume系列——Flume介绍及安装

Flume系列——Flume介绍及安装

介绍

Hadoop是离线批量处理海量数据的框架,这些数据已经存放在了HDFS上。但是除非这些数据是其他MapReduce的输出,否则它们不可能一开始就在HDFS上。那么它们是怎么放上去的呢?

当然有很多种途径,如sqoop。不同的数据源可能实用的框架不同。我们在这里要提到的是Flume。官方是这样描述它的:

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

它是一个分布式的、可靠的和可用的服务,能高效收集、聚合和移动大量日志数据。它用可调优的可靠性机制以及故障切换和恢复机制了保证健壮性和容错性。

Flume由很多个Agent组成,它们是一直运行的java进程。Agent由Source、Channel和Sink组成。Source是数据源,它读取数据并发送到Channel中,数据储存在Channel中直到被转发到Sink。Flume读取的数据是以事件流的形式发送的。其结构如下:
这里写图片描述

安装

Flume的安装非常简单。从Flume官网下载安装包。解压到某个目录。

tar -xzf apache-flume-1.7.0-bin.tar.gz

设置好FLUME_HOME和PATH环境变量就可以了。

Flume的安装就这么简单。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值