![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
flume
文章平均质量分 66
大模型大数据攻城狮
移动互联网小兵,崇尚创新,注重用户体验,从事大数据和算法、Java后台、Android开发
展开
-
Flume pollDelay设置不正确停止采集
使用FusionInsight HD Flume从本地采集静态日志( Spooling Source )保存到Kafka,由于采集堆积太多了,flume配置参数做了一些修改。后来发现一个诡异问题:每次重启flume采集,只采集1、2个文件就停止采集了,也没报什么错误。 采用对比法排查问题,对比正常运行的flume配置,看到pollDelay跟之前的不同。才想起之前一顿三百五的操作:想加快速度。pollDelay的设置值从5000改成500。 采集方案采用的Spooling Source + Memory原创 2021-06-13 15:06:56 · 363 阅读 · 0 评论 -
SparkStreaming Direct方式读取kafka优缺点及示例(Redis保存offset)
在Spark1.3之后,引入了Direct方式。不同于Receiver的方式,Direct方式没有Receiver这一层,其会周期性地获取Kafka中每个topic(主题)的每个partition(分区)中的最新offsets(偏移量),之后根据设定的maxRatePerPartition来处理每个batch。其形式如下图所示。 这种方法相较于Receiver方式的优势在于: ● 简化的并行。Direct方式中,Kafka中的partition与Spark内部的partition是一一对应的,这点使原创 2021-03-07 16:37:32 · 344 阅读 · 0 评论