Flume的SpoolDirSource优化，自定义Deserializer

最新推荐文章于 2024-08-06 09:20:05 发布

蓝桥春水

最新推荐文章于 2024-08-06 09:20:05 发布

阅读量1.1k

点赞数

分类专栏： flume 文章标签： flume SpoolDirSource

本文链接：https://blog.csdn.net/qq_40026968/article/details/83788779

版权

flume 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

SpoolDirSource采集数据默认是按行采集的，在官网的配置中有LINE和AVRO两种配置。AVRO尚未了解

在采集单行数据量少的日志文件时，使用Line采集慢

查看源码后发现实现原理非常简单

直接 copy了LineDeserializer的代码将主要逻辑改为如下

private String readLine() throws IOException {
StringBuilder sb = new StringBuilder();
int c;
int readChars = 0;
while ((c = in.readChar()) != -1) {
readChars++;

sb.append((char)c);

if (readChars >= maxCharLength) {
break;
}
}

if (readChars > 0) {
return sb.toString();
} else {
return null;
}
}

设置每次读取的最大长度maxCharLength=10*1024，这样我的event每次都是10k,而不是按行读取。这样采集速度得到了较大提升。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蓝桥春水

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

flume spoolDirectorySource：自定义Deserialize读取多行；彻底解决File has changed size since being read；数据下发存hive

qq_26884367的博客

10-27

1110

flume spoolDirectorySource中的File has changed size since being read与 File has been modified since being read解决；includepath巧用；自定义开发Deserializer读取多行再下发event；flume采集数据存到hive

flume自定义反序列化器deserializer

weixin_30408739的博客

07-25

486

需求背景：　　在利用flume进行日志收集的时候，错误信息会将堆栈多行打印，需要将多行信息合并成一行，包装成一个event进行传输。解决思路：　　　解决上述需求可以通过自定义拦截器和自定义反序列化器来实现。网上关于自定义拦截器的资料比较多，但考虑到拦截器的定位和使用场景，拦截器不应用于多个event拆分组合，并若flume有并发处理的话，不能保证读取event是顺序的。查阅资料发现，通...

参与评论您还未登录，请先登录后发表或查看评论

Flume(七)之Spooling Directory Source

最新发布

技术博客

08-06

211

监听一个文件夹下新产生的文件，并读取内容，发至 channel。使用该 Source 需要注意两点：第一个是拷贝到 spool 目录下的文件不可以再打开编辑，第二个是 spool 目录下不可包含相应的子目录。由于该Source可靠性和稳定性较好，被不少公司采用。Spooling Directory Source用于监听指定的目录，如果目录中有新的文件，那么会自动收集新文件中的数据。注意，被收集过的文件会自动的添加一个后缀。.COMPLETED。vim test.logs 输入内容。

flume Source志SpoolDir

chbxw

03-07

7704

二、flume监控某个目录，将数据发送kafka 2.1、flume source 使用SpoolDir 监控一个目录下的文件内容 SpoolDir监控目录下文件，处理后的文件修改文件名问题1：如果上传来的文件,还没有上传完，spoolDir扫描到改文件，将会报错所以此处我将监控前一个小时目录， #!/bin/bash #date -d "-10 min" +%...

flume第二讲spooldir source(以废弃)

weixin_45896475的博客

04-22

690

flume第二讲spooldir source(以废弃) spool(卷轴缠绕) 工作机制监视一个指定的文件夹,如果文件夹下有没采集过的新文件,则将这些文件中的数据采集,并转成event写入channal 缺点:spooling目录中的文件必须是不可改变的,而且是不能重名的! 没有记录偏移量,不能重复采集,不能对文件的内容进行修改在虚拟机新建一个配置文件 [root@doit02 agent]...

Flume 监控目录文件 spooldir

Aurora Silent

07-07

3596

Flume 监控目录文件 spooldirFlume应用场景中监控某个目录下的文件进行读取使用的很多，Flume通过source类型为spooldir来进行监控目录下文件，当新增文件时，Flume可将文件进行读取，开发者只需要编写对应的文件序列化器即可将读取的文件转存至HBase、HDFS、或者其他希望的数据格式。

关于Flume的优化和高可用

01-20

《Flume优化与高可用性解析》 Flume，作为Apache大数据生态中的重要组件，主要用于收集、聚合和传输日志数据。为了确保高效稳定的数据处理，Flume的优化和高可用性策略至关重要。本文将围绕Flume的内存参数优化、...

Flume进阶-自定义拦截器jar包

04-28

Flume进阶-自定义拦截器jar包

FLume基础【自定义拦截器、自定义Source，自定义sink】

weixin_43923463的博客

04-18

2115

一 自定义Interceptor 1 需求分析 2 实现步骤 2.1 创建Maven项目，添加依赖 <dependencies> <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.9

Flume系列：Flume 自定义Interceptor拦截器

wester的博客

05-26

1366

flume自定义Interceptor拦截器

Flume12：Flume的各种自定义组件

weixin_40612128的博客

03-04

436

各种自定义组件咱们前面讲了很多组件，有核心组件和高级组件 source、channel、sink以及Source Interceptors，Channel Selectors、Sink Processors 针对这些组件，Flume都内置提供了组件的很多具体实现，在实际工作中，95%以上的数据采集需求都是可以满足的，但是谁也不敢保证100%都能满足，因为什么奇葩的需求都会有，那针对系统内没有提供的一些组件怎么办呢？假设我们想把flume采集到的数据输出到mysql中，那这个时候就需要有针对mysql的s

Flume 自定义Source

weixin_44966780的博客

12-15

1653

Hive 自定义Source 1）介绍 Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多，但是有时候并不能满足实际开发当中的需求，此时我们就需要根据实际需求自定义某些 source。官方也提供了自定义 source 的接口

Flume | 数据监控以及传输性能优化

qq_44249833的博客

06-16

1194

测试环境阿里云学生机：2核4G 1Mbps Vm虚拟机：2核6G 100Mbps 数据量： 380w+ 测试source： spooldir 测试channel： memory channel 测试sink： hdfs sink 初始配置文件(flume默认值) test1.conf a1.sources = source1 a1.channels = channel1 a1.sinks = sink1 sink2 sink3 #Define a memory channel called chann

flume配置案例

RobertDowneyLm的博客

05-20

1292

flume配置案例dir-hdfs.conf：#定义三大组件的名称 ag1.sources = source1 ag1.sinks = sink1 ag1.channels = channel1 # 配置source组件 ag1.sources.source1.type = spooldir ag1.sources.source1.spoolDir = /root/log/ ag1.sourc...

spooldir source处理windiws换行符文件

第一片心意的博客

09-15

440

1. 问题发现最近我在使用Flume中spooldir类型的source监视linux本地目录处理文件时发现，Flume在监视到Windows文件（也就是换行符为\r\n）时，我的自定义拦截器处理读取到的每一行数据时，会发生一些想不到的结果，比如输出的字符串为乱码、输出的字符串和原始文件中的字符串不一致等。后来我查看了一下其源码，发现flume默认使用的串并转化器LINE ...

flume spooldir source监控单目录下的多个新文件

weixin_46122692的博客

11-22

694

1、需求：使用Flume监听整个目录的文件，并上传至HDFS 2、需求分析 spooldir 主要做的对一个目录的采集比如11月21日的（0点15-30分），采集11月20日的数据所在的目录，是离线采集的，采集完成之后把这个目录下的文件打一个标记 .COMPLETED 3、创建flume agent配置文件flume-dir-hdfs.conf cd /data/flume/apache-flume vim job/flume-dir-hdfs.conf 添加： # Name the compo

flume日志采集总结+实战分析+自定义拦截器讲解（全）

weixin_49165958的博客

12-01

2477

1.安装至官方网站下载flume的安装包，然后上传到moba 解压后，修改conf下的文件名：mv flume-env.sh.template flume-env.sh 打开文件，修改如下配置： export JAVA_HOME=/opt/jdk1.8.0_221 export JAVA_OPTS="-Xms2048m -Xmx2048m -Dcom.sun.management.jmxremote" 安装其他插件 yum install -y nc //瑞士军刀称呼 yum list telnet*

非结构数据采集工具---Flume，实现数据采集示例

向心行者

08-07

1915

1、Flume简介 Apache Flume是一种分布式、可靠和可用的系统，用于高效收集、聚合，以及将大量日志数据从许多不同的来源移动到集中式数据存储上。使用Apache Flume不仅限于日志数据的聚合。由于数据源是可定制的，因此可以使用Flume来传输大量的事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和其他数据源。 Flume使用两个独立的事务负责从Source到Channel及从Channel到Sink的事件传递。Channel中的File Channel具有持久性，事

Flume 数据采集系统性能优化和关键问题汇总