
---- Spark Streaming
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
聊聊 Kafka+Spark Streaming 管理offset的两种方法
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一,主要是用于数据实时入库或分析。为了应对可能出现的引起Streaming程序崩溃的异常情况,我们一般都需要手动管理好Kafka的offset,而不是让它自动提交,即需要将 enable.auto.commit 设为false。只有管理好offset,才能使整个流式系统最大限度地接近exactly once语义。管理offset的流程下面这张图能够简要地说明管理offset的大致流程。offset管理流程在Kafka Di转载 2020-11-12 11:15:10 · 641 阅读 · 0 评论 -
【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
文章目录一、前言二、KafkaUtils.createDstream三、KafkaUtils.createDirectStream一、前言首先,我们先来简单的了解下 Kafka:是一种高吞吐量的分布式发布订阅消息系统。依赖Zookeeper,因此搭建Kafka的时候需要事先搭建好Zookeeper。对 Kafka 还不太了解的同学,可以看云祁 Kafka 专栏的博客,一定会有收获的嗷 ???? !...原创 2020-04-06 21:56:50 · 1692 阅读 · 6 评论 -
【Spark Streaming】(四)基于 Spark Structured Streaming 的开发与数据处理
文章目录一、前言二、Spark Streaming vs Structured Streaming2.1 Spark Streaming2.2 Structured Streaming2.3 区别2.3.1 流模型2.3.2 RDD vs DataFrame、DataSet2.3.3 Process Time vs Event Time2.3.4 可靠性保障2.3.5 sink2.4 总结三、Sp...原创 2020-03-25 21:06:53 · 3680 阅读 · 27 评论 -
【Spark Streaming】(三)DStream 算子详解
文章目录一、前言二、Transformations on DStreams三、 Window Operations(窗口操作)四、Output Operations on DStreams(输出操作)一、前言Spark Streaming是核心Spark API的扩展,它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获...原创 2020-03-25 13:21:42 · 1650 阅读 · 8 评论 -
【Spark Streaming】(二)DStream 编码实战
文章目录一、前言二、DStream 编程模型三、DStream 操作3.1 套接字流:通过监听 Socket 端口来接收数据3.2 文件流3.2 RDD队列流3.4 带状态的处理 StateFull一、前言从前一篇博客 【Spark Streaming】(一)架构及工作原理 ????,我们了解到 Sprak Streaming 是属于 Saprk API 的扩展,它支持实时数据流(live data...原创 2020-03-24 14:13:08 · 3167 阅读 · 18 评论 -
【Spark Streaming】(一)架构及工作原理
文章目录一、简介二、流处理架构三、Micro-Batch Architecture四、工作原理4.1 Streaming Context4.2 DStream4.3 Input DStreams & Receivers五、DStream 操作六、Spark Streaming 架构七、Spark Streaming 能做什么一、简介Spark Streaming 是一个对实时数据流进行...原创 2020-03-23 19:46:29 · 3411 阅读 · 10 评论