Spark Streaming
Luis_yao
这个作者很懒,什么都没留下…
展开
-
爬虫Spark UI(Spark streaming监控)
spark streaming作为实时任务,出了问题并不像离线任务重跑就可以了.对监控要求个方面要求较高.在任务失败 堵塞 卡死等情况下都需要发邮件或者短信报警.比较普遍的方式是利用spark streaming自带的StreamingListener接口来监控.如果前者不满足要求,我们也可以简单写个静态爬虫轮询爬取spark ui上的各种指标来diy监控.方案一 StreamingLi...原创 2019-11-07 14:55:59 · 526 阅读 · 0 评论 -
spark-streaming快速入门
1.Overviewspark streaming是spark的一个拓展应用,对实时数据流进行:可拓展、高吞吐、 可容错的流处理。数据可以从多个来源得到,比如:Kafka,Flume,Kinesis或者TCP socket,并提供高级别的函数诸如map,reduce,join和window这样复合的算法。最终处理后的数据可以通过文件系统、数据库和实时dashboards输出。还支持Spark...原创 2019-01-21 13:40:59 · 290 阅读 · 0 评论 -
spark streaming + kafka实战
1.接收数据用spark streaming流式处理kafka中的数据,第一步当然是先把数据接收过来,转换为spark streaming中的数据结构Dstream。接收数据的方式有两种:1.利用Receiver接收数据,2.直接从kafka读取数据。1.1基于Receiver的方式这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接...原创 2019-01-21 13:41:26 · 511 阅读 · 0 评论 -
spark streaming调优-多线程并行处理任务
问题对于spark streaming程序和spark程序的区别,最大的一个问题就是spark streaming程序需要控制每次处理的时间。我们看以下两种场景,都很常见。场景1:程序每次处理的数据量是波动的,比如周末比工作日多很多,晚八点比凌晨四点多很多。一个spark程序处理的时间在1-2小时波动是OK的。而spark streaming程序不可以,如果每次处理的时间是1-10分钟...原创 2019-01-21 13:43:01 · 2948 阅读 · 1 评论 -
spark streaming 如何自动停止
问题众所周知spark streaming是7*24小时实时运行的程序。但是如果业务场景就是某天的某个时间段需要使用呢?时间点时长不固定。这个时候就需要我们代码逻辑上启动与停止spark streaming程序了。1.启动对于spark(streaming)程序,我们通常是用shell脚本进行启动,而脚本的调用通常是由crontab或者调度系统例如azkaban定时启动,当然azkaba...原创 2019-01-29 11:28:21 · 1404 阅读 · 1 评论