记录一次Flume消费kafka数据到HDFS踩到到的坑

最新推荐文章于 2024-08-20 23:58:14 发布

海边看花开

最新推荐文章于 2024-08-20 23:58:14 发布

阅读量911

点赞数

分类专栏： Flume

本文链接：https://blog.csdn.net/u014644167/article/details/109562771

版权

Flume 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Flume 原始配置

a1.sources=r1
a1.channels=c1
a1.sinks=k1

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sources.r1.kafka.topics=topic_start

## channel1
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/module/flume-1.7/checkpoint/behavior1
a1.channels.c1.dataDirs = /opt/module/flume-1.7/data/behavior1/
a1.channels.c1.maxFileSize = 2146435071
a1.channels.c1.capacity = 1000000
a1.channels.c1.keep-alive = 6

## sink1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /origin_data/gmall/log/topic_start/%Y-%m-%d
a1.sinks.k1.hdfs.filePrefix = logstart-

## 不要产生大量小文件
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

## 控制输出文件是原生文件。
a1.sinks.k1.hdfs.fileType = CompressedStream 
a1.sinks.k2.hdfs.fileType = CompressedStream 

## 拼装
a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1

启动 Flume后报：Attempt to join group flume failed due to obsolete coordinator information, retrying
在这里插入图片描述
前面 Flume作为生产者将消息传到Kafka这个过程没问题
在Kafka中可以手动消费到消息

so考虑分解此问题 Flume消费Kafka消息到控制台
修改Flume配置

a1.sources=r1
a1.channels=c1
a1.sinks=k1

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
`a1.sources.r1.batchSize` =  5000
a1.sources.r1.batchDurationMillis = 5000
a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092,hadoop104:9092
a1.sources.r1.kafka.topics=topic_start

a1.channels.c1.type = memory
a1.channels.c1.capacity = 100
a1.channels.c1.transactionCapacity = 100

a1.sinks.k1.type = logger

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

启动kafka后，出现如下错误，出现此错误的原因待研究

Put queue for MemoryTransaction of capacity 100 full, consider committing more frequently, increasing capacity or increasing thread count

在这里插入图片描述
因此考虑可能是一次行从kafka读取的数量太大了导致了，因此将 a1.sources.r1.batchSize 修改小一点，当修改为1000时，可以在控制台消费到Topic
具体原因参考

https://blog.csdn.net/nazeniwaresakini/article/details/109329675
https://blog.csdn.net/liuxiao723846/article/details/78257706

海边看花开

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录