整合Flume和kafka完成实时数据采集

最新推荐文章于 2024-07-30 11:28:03 发布

加油妹妹

最新推荐文章于 2024-07-30 11:28:03 发布

阅读量3k

点赞数

分类专栏： Flume kafka 文章标签： kafka Flume 消费

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012133048/article/details/81783835

版权

kafka 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

整合Flume和kafka完成实时数据采集

kafka和Flume都有发送和接收数据功能，为什么还需要配合使用呢，个人认为，Flume是一个数据采集工具，只管采集和发送，并没有存储功能，做不到缓存，接收到如果不能及时消费信息，会有数据丢失的风险，kafka完全可以解决这个问题，kafka自带存储，可以先接收，再慢慢消费，做日志缓存应该是更为合适的。

当然，没有最好的工具，只有最合适的工具，应对不同使用场景，可以根据kafka和flume的特性做调整，本文就flume+kafka做介绍。

整体流程图

flume 配置

exec-memory-avro

avro-memory-kafka

exec-memory-avro.conf

exec-memory-avro.sources = exec-source

exec-memory-avro.sinks = avro-sink

exec-memory-avro.channels = memory-channel

exec-memory-avro.sources.exec-source.type = exec

exec-memory-avro.sources.exec-source.command = tail -F /root/data/data.log

exec-memory-avro.sources.exec-source.shell = /bin/sh -c

exec-memory-avro.sinks.avro-sink.type = avro

exec-memory-avro.sinks.avro-sink.hostname = hadoop1

exec-memory-avro.sinks.avro-sink.port = 44444

exec-memory-avro.channels.memory-channel.type = memory

exec-memory-avro.sources.exec-source.channels = memory-channel

exec-memory-avro.sinks.avro-sink.channel = memory-channel

avro-memory-kafka.conf

avro-memory-kafka.sources = avro-source

avro-memory-kafka.sinks = kafka-sink

avro-memory-kafka.channels = memory-channel

avro-memory-kafka.sources.avro-source.type = avro

avro-memory-kafka.sources.avro-source.bind = hadoop000

avro-memory-kafka.sources.avro-source.port = 44444

###kafka sink 配置

avro-memory-kafka.sinks.kafka-sink.type = org.apache.flume.sink.kafka.KafkaSink

avro-memory-kafka.sinks.kafka-sink.brokerList = hadoop000:9092

avro-memory-kafka.sinks.kafka-sink.topic = hello_topic

avro-memory-kafka.sinks.kafka-sink.batchSize = 5

avro-memory-kafka.sinks.kafka-sink.requiredAcks =1

avro-memory-kafka.channels.memory-channel.type = memory

avro-memory-kafka.sources.avro-source.channels = memory-channel

avro-memory-kafka.sinks.kafka-sink.channel = memory-channel

先启动flume接收端，再启动flume发送端

flume-ng agent \

--name avro-memory-kafka \

--conf $FLUME_HOME/conf \

--conf-file $FLUME_HOME/conf/avro-memory-kafka.conf \

-Dflume.root.logger=INFO,console

flume-ng agent \

--name exec-memory-avro \

--conf $FLUME_HOME/conf \

--conf-file $FLUME_HOME/conf/exec-memory-avro.conf \

-Dflume.root.logger=INFO,console

kafka 配置

启动具体配置根据：https://blog.csdn.net/u012133048/article/details/81783477 此篇博客编写配置文件。

创建topic：

kafka-topics.sh --create --zookeeper hadoop000:2181 --replication-factor 3 --partitions 1 --topic hello_topic

打开终端消费：

kafka-console-consumer.sh --zookeeper hadoop000:2181 --topic hello_topic

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
整合Flume和kafka完成实时数据采集

整合Flume和kafka完成实时数据采集 kafka和Flume都有发送和接收数据功能，为什么还需要配合使用呢，个人认为，Flume是一个数据采集工具，只管采集和发送，并没有存储功能，做不到缓存，接收到如果不能及时消费信息，会有数据丢失的风险，kafka完全可以解决这个问题，kafka自带存储，可以先接收，再慢慢消费，做日志缓存应该是更为合适的。当然，没...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。