spark streaming小实战之kafka读取与存储

最新推荐文章于 2024-05-29 09:38:05 发布

DaHuangXiao

最新推荐文章于 2024-05-29 09:38:05 发布

阅读量2.4k

点赞数 1

分类专栏： spark 文章标签： spark streaming

本文链接：https://blog.csdn.net/m0_37637511/article/details/80330358

版权

本文介绍了使用Spark Streaming从Kafka读取数据，并进行每5分钟访问量统计，然后将处理结果回写到Kafka的实战过程。首先通过Kafka Connect模拟数据流，接着展示Scala编写的Spark Streaming程序及其运行效果，最后验证数据成功存储到指定topic。

摘要由CSDN通过智能技术生成

本次小实战主要介绍一下spark streaming如何读取kafka数据

涉及理论部分在这就不多说了，自己也刚入门

先说下需求

待处理日志格式为

ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2.6,7038004
ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/09/18 08:37,上海,上海,210.2.2.6,7038004
ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/02/19 01:16,上海,上海,210.2.2.6,7038004

需要做的是统计每隔5分钟内被访问的数量

数据从kafka中读出，通过spark streaming处理，然后再写会kafka

接下来将从两部分入手说明项目完成过程

一、模拟kafka流

二、spark streaming处理最后写回kafka

第一部分

目的：模拟真实kafka流情况

思路：使用kafka的connect监听source文件，如果发生修改，写入topic

先打开zookeeper，kafka

接着进入kafka目录下，使用如下命令开启connect

bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties

监听的文件位置在

最低0.47元/天解锁文章

DaHuangXiao

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
spark streaming小实战之kafka读取与存储

本次小实战主要介绍一下spark streaming如何读取kafka数据涉及理论部分在这就不多说了，自己也刚入门先说下需求待处理日志格式为ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2.6,7038004ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/09/18 08...
复制链接

扫一扫

专栏目录