flume + spark-streaming + kafka + hdfs 实时解析日志的一种方式

最新推荐文章于 2021-12-02 19:31:51 发布

迅讯

最新推荐文章于 2021-12-02 19:31:51 发布

阅读量1.3k

点赞数

分类专栏： spark 文章标签： spark streaming kafka flume 实时解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012289670/article/details/80228512

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

记录前段时间写的一个实时解析日志应用，本次采用flume对接日志，进入kafka,spark-streaming实时消费kafka里面的数据，然后结果持久化保存在hdfs里面。

1、数据采集

数据采集使用的是flume,在这个地方flume采集到日志之后，将会在hdfs保存一份原始日志，同时将日志实时写入kafka的指定topic（例如stream_topic_1）。

2、数据解析

数据解析分为两个部分，将会启动两个流：

第一个流用来消费kafka里面的原始日志(stream_topic_1)，通过正则解析，将结果写入kafka(dataset_stream_topic_1)。

消费kafka里面的原始日志，应该从最新的日志开始消费，也就是"auto.offset.reset" -> "latest"，以免总是在消费历史数据，没法达到实时性。

第二个流消费解析之后的日志（dataset_stream_topic_1）然后写入snappy文件。生成的snapp的文件名，要带有相应日志的时间字段。例如：20180508100000_8d6245f0be124fdbaa5ae4e6014aa6ec.snappy。注意：在写完snappy文件的close之后，应该将文件路径修改一下，避免后面合并文件的时候造成读写混乱。

最后在启动一个定时任务，将第二个流生成的snappy文件合并成parquet文件。每次启动任务的时候，将所有未合并的snappy文件（此时所有读到的snappy文件都已经关闭了），按照时间进行group，将同一个时间段的日志一次性写进同一个parquet文件。然后关闭parquet文件。

如果系统里面还要加上其他的数据导出功能，可以直接再起一个流，消费解析之后的数据kafka(dataset_stream_topic_1)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。