sturctured streaming
lief2liu
这个作者很懒,什么都没留下…
展开
-
spark structured streaming 教程03(窗口函数)
上一篇structured streaming的博客,我们用structured streaming 解析了推送到kafka的用户访问日志,这篇博客我们利用窗口函数,根据用户日志统计每分钟的pv,顺便写清楚一下窗口函数的原理1数据源上篇博客也写过了,推送到kafka的每条用户访问日志数据源是这样的{ "uid": "ef16382c8acce8ec", "timestamp": 1594983278059, "agent": "Mozilla/5.0 (Linux; Android 10; .原创 2020-08-04 23:59:38 · 1411 阅读 · 0 评论 -
spark structured streaming 教程02(对接kafka的json数据)
首先是准备kafka数据源{"uid":"ef16382c8acce8ec","code":"019","userId":"","lat":"0.0","lng":"0.0","timestamp":1594983278059,"param":"null","ip":"192.168.0.247","agent":"Mozilla/5.0 (Linux; Android 10; Redmi K30 5G Build/QKQ1.191222.002; wv) AppleWebKit/537.36 (KHTM原创 2020-07-20 20:17:39 · 1221 阅读 · 0 评论 -
spark structured streaming 教程01(上手实例)
废话不多说,先跟我跑第一个structured streaming程序, 按照惯例这个程序功能还是wordcount,统计你输入的内容中每个单词出现的次数1配置好流数据的数据源我这边是用一台centos服务器,通过nc命令启动socket服务端来产生流数据的数据源的,具体操作如下:1.安装nc yum install nc.x86_642.在9999端口启动socket服务端 nc -lk 99993.输入数据[root@dg000 ~]# nc -lk 9999word hell.原创 2020-07-17 20:24:15 · 580 阅读 · 0 评论