Flume 各种坑

本文介绍了使用Flume收集和传输数据时遇到的配置问题,包括Sink配置错误导致的Kafka Event Headers乱码,以及Source配置技巧和坑点,如监控子目录、处理JSON数据格式的限制等。
摘要由CSDN通过智能技术生成

1. 背景

最近一段时间在做安全大数据分析环境搭建以及初步的数据采集、录入工作,这个过程中用到了 Hadoop+HBase+Flume+Kafka这套大数据分析的工具。在数据分析环境架构中,Flume-1.7.0 主要用来收集各种来源、形式的数据,并把数据传给 Kafka 集群,由 Kafka 集群统一分发给 HBase集群。

用 Flume ,主要用到的 Source 是 spooldir source 和 http-json sourceSink 就主要是 Kafka Sink,配置非常灵活、功能也很强大。但在使用的过程中踩了不少坑,撰文记录一下比较重要的几个。

NOTE:
Flume-ng 的Agent 由三部分组成:Source/Channel/SinkSource 相当于数据录入源,是 生产者 的角色; Channel 相当于数据传输通道;Sink 相当于数据接收端,是消费者的角色。在 Flume-ng 中,数据流向是 Source-->Channel-->Sink

2. kafka Sink 配置坑

2.1 LEADER_NOT_AVAILABLE Error

Kafka Sink ,顾名思义,即把 Kafka (集群或单个服务器)当做 Flume 的数据接收端(消费者),其中有一个配置项是配置 Kafka 的服务器:

     
     
     
1
     
     
     
AGENT_NAME.sinks.malwrK.kafka.bootstrap.servers = serv1:PORT[,serv2:PORT,serv3:PORT...]

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值