Spark Streaming
分享大数据学习相关内容,以及在工作中遇到的大数据问题
程序员X小鹿
前互联网大厂程序员/AIGC爱好者/自由职业2年+
展开
-
Kafka整合Spark Streaming之Direct模式
Kafka整合Spark Streaming的两种模式:Receiver模式和Direct直连模式。现在在生产中,一般都会选择Direct直连模式来进行Kafka和Spark Streaming的整合,而在生产中,遇到最多的两个问题就是丢数据和重复读的问题。本篇将重点介绍Direct模式,讲述Direct模式的原理,以及Direct模式存在的问题和相关的解决办法。原创 2020-03-15 17:15:20 · 855 阅读 · 0 评论 -
Kafka整合Spark Streaming —— Receiver模式
Kafka整合Spark Streaming的两种模式:Receiver模式和Direct直连模式。本篇先来介绍Receiver模式,讲述Receiver模式的原理,以及Receiver模式存在的问题和相关的解决办法。虽然在生产中,一般都会选择Direct直连模式来进行Kafka和Spark Streaming的整合,甚至在新版中已经将Receiver模式拿掉了,但了解一下总归是没有坏处的。如果想直接了解Direct模式,请看下篇 Kafka整合Spark Streaming之Direct模式原创 2020-03-15 17:03:59 · 378 阅读 · 0 评论 -
Spark Streaming(七)—— Spark Streaming性能优化
本文从3方面介绍在生产中常用的Spark Streaming调优方式,减少批数据的执行时间(数据并行接受、数据并行处理、数据序列化),设置合理的批容量以及内存参数调优。原创 2020-03-14 15:12:07 · 355 阅读 · 0 评论 -
Spark Streaming(六)—— 检查点
流数据处理程序通常都是全天候运行,因此必须对应用中逻辑无关的故障(例如,系统故障,JVM崩溃等)具有弹性。为了实现这一特性,Spark Streaming需要checkpoint足够的信息到容错存储系统,以便可以从故障中恢复。原创 2020-03-13 16:56:45 · 356 阅读 · 0 评论 -
Spark Streaming(五)—— Spark Streaming缓存/持久化
与RDD类似,DStreams还允许开发人员将流数据保留在内存中。也就是说,在DStream上调用persist() 方法会自动将该DStream的每个RDD保留在内存中。如果DStream中的数据将被多次计算(例如,相同数据上执行多个操作),这个操作就会很有用。对于基于窗口的操作,如reduceByWindow和reduceByKeyAndWindow以及基于状态的操作,如updateSta...原创 2020-03-13 16:46:16 · 478 阅读 · 0 评论 -
Spark Streaming(四)—— Spark Streaming输出
输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。本文主要以举例的方式讲述Spark Streaming常用的输出。原创 2020-03-13 16:44:36 · 254 阅读 · 0 评论 -
Spark Streaming(三)—— 高级数据源Flume
Spark Streaming 是一个流式计算引擎,就需要对接外部数据源来对接、接收数据。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。Spark Streaming的基本数据源(文件流、RDD队列流、套接字流)上篇已经介绍过了,而Spark Streaming的高级数据流主要有Kafka,Flume,Kinesis,Twitter等。本文主要介绍Flume作为高级数据源的使用。原创 2020-03-13 16:33:40 · 547 阅读 · 0 评论 -
Spark Streaming(二)—— Spark Streaming基本数据源
Spark Streaming 是一个流式计算引擎,就需要对接外部数据源。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。本文主要介绍三种基本的数据源:文件流、RDD队列流、套接字流。原创 2020-03-13 16:18:38 · 2106 阅读 · 0 评论 -
Spark Streaming(一)—— Spark Streaming介绍
介绍Spark Streaming的特点、概念及常用的实时计算引擎的对比,讲述Spark Streaming内部结构,StreamingContext对象创建的两种方式,离散流DStream及窗口。原创 2020-03-13 16:06:48 · 480 阅读 · 0 评论