Flume概述
一、 Flume定义
Flume是Cloudera提供的一个高可用的,高可靠(failover)的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
Flume一般运用于读取服务器磁盘里的数据并写入到HDFS当中;
二、 Flume基本架构
Flume组成架构如下图所示:
Agent
Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成,Source、Channel、Sink。
Source
Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。