Kafka | Flume Sink日志到Kafka&HDFS

最新推荐文章于 2024-03-16 16:13:22 发布

点滴笔记

最新推荐文章于 2024-03-16 16:13:22 发布

阅读量462

点赞数 1

分类专栏： Kafka Flume 文章标签： Flume Kafka HDFS Sink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sampson_Hugo/article/details/103820662

版权

记录下将服务端AC设备产生的数据采集到Flume中，然后基于Flume Sink 把数据日志同时写入到Kafka与HDFS中，对于Kafka中的数据保存到指定的Topic中，然后后续基于Spark Streaming采用Direct的方式，将数据从消息队列中，取出并做处理。

Flume采集日志文件，同时Sink写入到Kafka与HDFS。： agent = ac_online_user，如下：

ac_online_user.sources = ac_source
ac_online_user.channels = ac_channel_kafka ac_channel_hdfs
ac_online_user.sinks = ac_sink_kafka ac_sink_hdfs

ac_online_user.sources.ac_source.type = TAILDIR
ac_online_user.sources.ac_source.channels = ac_channel_kafka
ac_online_user.sources.ac_source.positionFile = /var/log/flume/position/accessaconlineuser.log
ac_online_user.sources.ac_source.recursiveDirectorySearch = true
ac_online_user.sources.ac_source.fileHeader = true
ac_online_user.sources.ac_source.fileHeaderKey = fileName
ac_online_user.sources.ac_source.filegroups = group_ac_online_user
ac_online_user.sources.ac_source.filegroups

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Kafka | Flume Sink日志到Kafka&HDFS

记录下将服务端AC设备产生的数据采集到Flume中，然后基于Flume Sink 把数据日志同时写入到Kafka与HDFS中，对于Kafka中的数据保存到指定的Topic中，然后后续基于Spark Streaming采用Direct的方式，将数据从消息队列中，取出并做处理。Flume采集日志文件，同时Sink写入到Kafka与HDFS。： agent =ac_online_user，如下：...
复制链接

扫一扫

专栏目录

点滴笔记 CSDN认证博客专家 CSDN认证企业博客

码龄10年

80: 原创

6万+: 周排名

121万+: 总排名

11万+: 访问

: 等级

1618: 积分

11: 粉丝

41: 获赞

15: 评论

157: 收藏

私信

关注

热门文章

分类专栏

Hadoop 3篇
Linux 13篇
Spark 20篇
DW 1篇
Kafka 18篇
Flink 3篇
Zookeeper 1篇
Hive 2篇
Python 5篇
HBase 6篇
Flume 1篇
Java 18篇

最新评论

Spark | Stage进度条展示(showConsoleProgress)
a17824: 请问作者是在哪里看到关于jupyter进度条的解释的
Kafka | Kafka中如何实现死信队列&重试队列
qq_43301530: 你看看你的标题和你写的内容对的上吗，看你写的东西整个人都是懵逼的
Kafka | Kafka中如何实现死信队列&重试队列
点滴笔记: 尴尬，着实未明白捕获异常中提交消费事务是指什么？如果消费kafka队列中消息解析失败导致异常，将该失败消息写入新的特殊队列以备后续重试消费再次写入DB库中，还是直接将解析失败的消息当做脏数据，捕获异常，写入到DB库中。按照我的浅解，脏数据场景下，消费异常脏数据后，应该记录当前脏数据且提交脏数据事务消费记录。如果从kafka消费事务角度看，其它消费者仍然可能重复消费并解析失败。不管是跨分区或者单分区消费的话。当然，脏数据从生产端点开始是如何产生的，这个就得另论了。
Kafka | Kafka中如何实现死信队列&重试队列
坏蛋damn: 写得非常好，有自己的思考，学RocketMQ发现有死信，回过头来对比kafka，很好的文章。我想问下楼主，如果kafka有一条脏消息由于json解析失败，导致消费者始终都不会提交，那么这条消息永远在队列前面，后面的消息消费不了，这样在业务代码中消费者需要在异常捕获中提交消费事务吗？
Hive | DISTINCT on different columns not supported with skew in data
圆周率的后六位: 是呢，在工作中我也遇到过这个问题。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。