Spark Streaming
文章平均质量分 90
Spark Streaming
四月天03
能用钱解决的问题,千万别花时间
展开
-
kafka生产者方式、回调函数、指定分区、消费方式指定分区、偏移量提交、多线程,消费失败重试补偿
一、 kafka发送消息的三种方式public class MyProducer implements Job { private static KafkaProducer<String,String> producer; static { Properties properties = new Properties(); ...原创 2019-03-04 09:57:20 · 5770 阅读 · 1 评论 -
Streaming核心原理--批次、窗口,调优- Batch Duration优化,多线程并行处理
Spark Streaming 调优-多线程并行处理任务问题:对于spark streaming程序和spark程序的区别,最大的一个问题就是spark streaming程序需要控制每次处理的时间。我们看以下两种场景,都很常见。场景1:程序每次处理的数据量是波动的,比如周末比工作日多很多,晚八点比凌晨四点多很多。一个spark程序处理的时间在1-2小时波动是OK的。而sp...原创 2019-03-01 15:27:19 · 2895 阅读 · 0 评论 -
Spark Streaming 运行日志 、 任务监控 Web UI 、Kafka 、Listener 邮件短信通知
任务监控一、 Spark Web UI对于 Spark Streaming 任务的监控可以直观的通过 Spark Web UI ,该页面包括 Input Rate, Scheduling Delay、Processing Time 等,但是这种方法运维成本较高,需要人工不间断的巡视。这其中包括接受的记录数量,每一个batch内处理的记录数,处理时间,以及总共消耗的时间。在上...原创 2019-02-27 15:27:43 · 6529 阅读 · 1 评论 -
SparkStreaming +kafka 的offset保存MySQL、hbase、redis、zookeeper
Kafka做为一款流行的分布式发布订阅消息系统,以高吞吐、低延时、高可靠的特点著称,已经成为Spark Streaming常用的流数据来源。其实说白了,官方提供的思路就是,把JavaInputDStream转换为OffsetRange对象,该对象具有topic对应的分区的所有信息,每次batch处理完,Spark Streaming都会自动更新该对象,所以你只需要找个合适的地方保存该对象(比如...原创 2019-02-27 15:09:38 · 3155 阅读 · 2 评论