一、是什么?
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方(Socket数据包、文件、文件夹、kafka),用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(HDFS、hbase、hive、kafka等众多外部存储系统)(可定制)的能力。Flume于2009捐赠给apache软件基金会,成为hadoop相关组件之一。
二、Flume的结构
Flume运行的核心就是Agent,Flume以agent为最小的独立运行单位。Agent有三个核心组件分别是Source、Channel、Sink。结构图如下:
Event:消息、事件,在Flume数据传输的单位是event,event由消息头和消息体组成。Flume将解析的日志数据、接收到的TCP数据等分装成events在内部Flow中传递。
Flow: Event从源点到达目的点的迁移的抽象。
Collector:另一种Flume进程(Agent),它用于接收Flume agents发送的消息,相对于Agent,Collector“收集”的消息通常来自多个Server,它的作用就是对消息进行“聚合”、“清洗”、“分类”、“过滤”等,并负责保存和转发给downstream。
Source:Flume内部组件之一,从数据发送器接收数据,解析原始数据并封装成event、或者是接收Client端发送的Flume Events;对于Flume进程而言,source是整个数据流(Data Flow)的最前端,用于“产生”events,然后将事件推入Channel中。
Channel:Flume内部组件之一,用于“传输”events的通道,Channel通常具备“缓存”数据、“流量控制”等特性;
Sink:Flume内部组件之一,用于将内部的events通过合适的协议发送给第三方组件,比如Sink可以将events写入本地磁盘文件、基于Avro协议通过TCP方式发给其他Flume,可以发给kafka等其他数据存储平台等;Sink最终将events从内部数据流中移除。
三、Flume安装
前提:已经存在hadoop环境。
安装包地址:http://archive.cloudera.com/cdh5/cdh/5/
1.将下载好的安装包存放到指定的目录,在linux系统中进行解压操作:
tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/
2.修改配置文件:
cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf #flume配置文件所在位置
cp flume-env.sh.template flume-env.sh
vim flume-env.sh
export JAVA_HOME=jdk所在路径
3.先配置一个采集方案,启动并测试flume是否可以成功运行
在flume的配置文件中创建一个netcat-logger.conf文件
4.启动配置文件
bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我