flume简介
Flume
是Cloudera
提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume
的核心是把数据从数据源source
收集过来,再将收集到的数据送到指定的目的地sink
。为了保证输送的过程一定成功,在送到目的地sink
之前,会先缓存数据channel
,待数据真正到达目的地sink
后,flume
再删除自己缓存的数据
flume的采集频率是怎么设置的?
设置flume
的采集频率,有两种控制策略,第一种: 文件127.9M的时候采集一次 第二种: 两个小时滚动一次
flume的监测
flume
比较脆弱,一旦抛异常,就会停止工作,只能够手动重启,那么什么情况下flume
死掉了?如果目的地数据没有增多,或者源数据没有变少,flume
都有可能死掉了,可以写一个脚本定时执行检测,检测源数据有没有减少和目的地数据有没有增多,杀掉flume
,重新启动,也可以用failover
的机制
flume
监控文件的内容变化,将文件里面新增的数据全部收集到hdfs上面去