1. 背景
最近一段时间在做安全大数据分析环境搭建以及初步的数据采集、录入工作,这个过程中用到了 Hadoop+HBase+Flume+Kafka
这套大数据分析的工具。在数据分析环境架构中,Flume-1.7.0
主要用来收集各种来源、形式的数据,并把数据传给 Kafka
集群,由 Kafka
集群统一分发给 HBase
集群。
用 Flume
,主要用到的 Source
是 spooldir source
和 http-json source
,Sink
就主要是 Kafka Sink
,配置非常灵活、功能也很强大。但在使用的过程中踩了不少坑,撰文记录一下比较重要的几个。
NOTE:
Flume-ng
的Agent
由三部分组成:Source
/Channel
/Sink
,Source
相当于数据录入源,是 生产者 的角色;Channel
相当于数据传输通道;Sink
相当于数据接收端,是消费者的角色。在Flume-ng
中,数据流向是Source-->Channel-->Sink
。
2. kafka
Sink 配置坑
2.1 LEADER_NOT_AVAILABLE
Error
Kafka Sink
,顾名思义,即把 Kafka
(集群或单个服务器)当做 Flume
的数据接收端(消费者),其中有一个配置项是配置 Kafka
的服务器:
|
|