我会不间断的更新,维护,希望可以对正在找大数据工作的朋友们有所帮助.
第十章目录
第十章 Flume
一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
10.1 Flume结构
10.1.1 Source
默认的有Avro(监视端口)、Thrift、Exec(执行linux命令)、JMS、Spooling Directory(监视目录)、TailDirSource(1.7新增类似tail功能,支持断点续传),第三方插件有kafka
10.1.2 拦截器
所有events,增加头,类似json格式里的"headers":{" key":" value"}时间戳(头部插入时间戳)、主机(头部插入主机名和IP)、静态(头部插入指定KV)、正则过滤(留下符合条件的)、自定义
10.1.3 Channel
Memory、JDBC、Kafka、File、Custom
10.1.4 拦截器
10.1.5 Sink
HDFS、Hive、Logger、Avro、File Roll Sink(本地文件存储)、HBase、ElasticSearch、Kafka、Null
<