Flume定义
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
流式框架:基于流式处理(流水线处理,粒度很细),不停的处理
缺点:就是比较吃资源。
Flume基础架构
从webServer采集日志通过Agent(进程)进行一系列的传输传到HDFS上(我们希望放入的地方)
Event: 传输单元,Flume数据传输的基本单元,以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组成,Header用来存放该event的一些属性,为K-V结构,Body用来存放该条数据,形式为字节数组。
Source:负责对接我们的数据源,并将数据源中的数据一行一行的包装成event,并把event推到channel中
Sink:从channel中拉出event,进行拆包(一行一行的数据),最后写到(HDFS)我们想输出的地方