Flume
lishengping_max
专注大数据领域
展开
-
flume1.7源码编译及main方法启动
一、编译 首先下载flume1.7源码,导入eclipse 1.Maven依赖报错Missing artifact jdk.tools:jdk.tools:jar:1.7 添加依赖 <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools<...原创 2017-02-03 22:13:49 · 2689 阅读 · 0 评论 -
flume插件开发及部署
本文基于flume1.7讲解 一、自定义source开发 方法一: 你可以在start方法中启动额外的线程,不断的往channel中发数据。方法二: 此方法中多了一个process()方法,这个方法在PollableSourceRunner类中会被一个线程不断的调用。因此可以在process()实现不断重发。二、自定义sink开发 process会不断调用,你只需在process中去取ch原创 2017-02-03 23:00:38 · 4095 阅读 · 0 评论 -
Flume tailDir合并异常行处理
一、前言前段时间上线了Flume+Kafka+ELK日志处理系统,需要在flume收集端实现合并异常行的功能,logstash有合并异常行的功能,但不适合公司的业务场景。 二、实现目前采用的flume1.7.0 tailDir source收集日志,基本思想是在读取一条event时,利用正则判断是不是异常行,如果是则合并event,不是则发送之前合并的event,并缓存当前这条event三、代码这原创 2017-05-21 16:32:56 · 2182 阅读 · 0 评论 -
flume常用source问题总结
一、SpoolDirectorySource 作用: 监测配置的目录下新增的文件,并将文件中的数据读取出来。 问题: 1.spool目录下的文件不可以再打开编辑;spool目录下不可包含相应的子目录2.SpoolSource无法实现实时的收集数据 解决:log4j TimeRolling的插件,分割机制设为1分钟一次,需改log4j配置文件3.无法使用TimeRolling插件,手工cop原创 2017-02-03 23:19:11 · 4850 阅读 · 0 评论 -
Flume开发问题记录
一 、Flume 启动异常:2017-11-24 17:24:39,115 (kafka-producer-network-thread | producer-1) [DEBUG - org.apache.kafka.common.network.Selector.poll(Selector.java:307)] Connection with /xxxx disconnected java.io.原创 2017-11-27 12:22:37 · 1292 阅读 · 0 评论