本次小实战主要介绍一下spark streaming如何读取kafka数据
涉及理论部分在这就不多说了,自己也刚入门
先说下需求
待处理日志格式为
ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/11/29 13:46,上海,上海,210.2.2.6,7038004
ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/09/18 08:37,上海,上海,210.2.2.6,7038004
ouMrq2r_aU1mtKRTmQclGo1UzY,3251210381,2018/02/19 01:16,上海,上海,210.2.2.6,7038004
需要做的是统计每隔5分钟内被访问的数量
数据从kafka中读出,通过spark streaming处理,然后再写会kafka
接下来将从两部分入手说明项目完成过程
一、模拟kafka流
二、spark streaming处理最后写回kafka
第一部分
目的:模拟真实kafka流情况
思路:使用kafka的connect监听source文件,如果发生修改,写入topic
先打开zookeeper,kafka
接着进入kafka目录下,使用如下命令开启connect
bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-source.properties
监听的文件位置在