Flume基础

Flume:是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志收集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写道各种数据接收方(可定制)的能力。
Flume有两个重要版本:
Flume 0.9X版本的统称Flume-og,
Flume 1.X版本的统称Flume-ng。
由于Flume-ng经过重大重构,与Flume-og有很大不同。
简单理解为:Flume是搬运数据的好帮手(小软件)。

Flume应用架构:
Flume应用架构图

如上图:各类数据源(日志,数据表,图形) -->Flume集群/各节点 -->HDFS/Hbase/

每个节点对应一个Agent(代理),包含:source,channel,sink三个组件
Source:
从数据发生器接受数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channel,Flume提供多种数据接收的方式,如Avro,Thrift,twitter等

Channel:
是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink起着一共桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性,并且它可以和任意数量的source和sink连接,支持的类型有:JDBC channel , File System channel , Memort channel等.

sink:
sink将数据储存到集中储存器比如Hbase和Hdfs,它从channals消费数据(events)并将其传递给目标地,目标地可能是另一个sink,也可能是HDFS,Hbase。

Flume安装配置
单节点:
1.解压安装包,重命名
cd /opt/mysoft
tar -zxvf apache-flume-1.7.0-bin.tar.gz
mv apache-flume-1.7.0-bin flume
2.配置环境变量
在这里插入图片描述
source /etc/profile

3.配置Flume
cd /opt/mysoft/flume/conf
mv flume-env.sh.template flume-env.sh
配置JDK路径
在这里插入图片描述

备注:若后续将数据采集到Hadoop/Hbase,启动Flume时会提示包冲突,建议直接删除 flume/lib/slf4j-log4j12-1.6.1.jar 和hbase/lib/slf4j-log4j12-1.7.5.jar ,只保留/opt/mysoft/hadoop/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值