Flume简单介绍

一、是什么

      Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集聚合传输的系统,Flume支持在日志系统中定制各类数据发送方(Socket数据包、文件、文件夹、kafka),用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(HDFS、hbase、hive、kafka等众多外部存储系统)(可定制)的能力。Flume于2009捐赠给apache软件基金会,成为hadoop相关组件之一。


二、Flume的结构

    Flume运行的核心就是Agent,Flume以agent为最小的独立运行单位。Agent有三个核心组件分别是Source、Channel、Sink。结构图如下:

在这里插入图片描述

Event:消息、事件,在Flume数据传输的单位是event,event由消息头和消息体组成。Flume将解析的日志数据、接收到的TCP数据等分装成events在内部Flow中传递。

Flow: Event从源点到达目的点的迁移的抽象。

Collector:另一种Flume进程(Agent),它用于接收Flume agents发送的消息,相对于Agent,Collector“收集”的消息通常来自多个Server,它的作用就是对消息进行“聚合”、“清洗”、“分类”、“过滤”等,并负责保存和转发给downstream。

Source:Flume内部组件之一,从数据发送器接收数据,解析原始数据并封装成event、或者是接收Client端发送的Flume Events;对于Flume进程而言,source是整个数据流(Data Flow)的最前端,用于“产生”events,然后将事件推入Channel中。

Channel:Flume内部组件之一,用于“传输”events的通道,Channel通常具备“缓存”数据、“流量控制”等特性;

Sink:Flume内部组件之一,用于将内部的events通过合适的协议发送给第三方组件,比如Sink可以将events写入本地磁盘文件、基于Avro协议通过TCP方式发给其他Flume,可以发给kafka等其他数据存储平台等;Sink最终将events从内部数据流中移除。


三、Flume安装

前提:已经存在hadoop环境。
安装包地址:http://archive.cloudera.com/cdh5/cdh/5/

1.将下载好的安装包存放到指定的目录,在linux系统中进行解压操作:

tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/

2.修改配置文件:

 cd  /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf  #flume配置文件所在位置
 cp  flume-env.sh.template flume-env.sh
 vim flume-env.sh
 export JAVA_HOME=jdk所在路径 

3.先配置一个采集方案,启动并测试flume是否可以成功运行

在flume的配置文件中创建一个netcat-logger.conf文件
在这里插入图片描述

4.启动配置文件

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1  -Dflume.root.logger=INFO,console

-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值