flume概述
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
使用Taildir Source采集文件夹数据到hdfs
- Taildir Source 是Apache flume1.7新推出的,但是CDH Flume1.6做了集成
- Taildir Source是高可靠(reliable)的source,他会实时的将文件偏移量写到json文件中并保存到磁盘。下次重启Flume时会读取Json文件获取文件O偏移量,然后从之前的位置读取数据,保证数据零丢失
- Taildir Source可同时监控多个文件夹以及文件。即使文件在实时写入数据。
- Taildir Source也是无法采集递归文件下的数据,这需要改造源码
- Taildir Source监控一个文件夹下的所有文件一定要用.*正则
1、Flume 采集数据会丢失吗?
不会,Channel 存储可以存储在 File 中,数据传输自身有事务。
2、flume 有哪些组件,flume 的 source、channel、sink 具体是做什么的?
1)source:用于采集数据,Source 是产生数据流的地方,同时 Source 会将产生的数据