Spark Streaming
tianlan996
这个作者很懒,什么都没留下…
展开
-
SparkStreaming之Transform
作用 将Dstream转换为RDD,从而可以和其它的的RDD进行join操作。scala版本:package cn.spark.study.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.stream...原创 2019-03-24 22:28:13 · 853 阅读 · 0 评论 -
Spark Streaming的output操作及foreachRDD用法示例
Output Meaning print 打印每个batch中的前10个元素,主要用于测试,或者是不需要执行什么output操作时,用于简单触发一下job。 saveAsTextFile(prefix,[suffix]) 将每个batch的数据保存到文件中。每个batch的文件的命名...原创 2019-03-25 22:00:04 · 251 阅读 · 0 评论 -
Receiver VS Direct区别
1. 拉取数据的方式Receiver采用kafka高级api,一次性拉取固定时间的数据后再进行处理,这可能造成一个问题:拉取的数据过多,放不下怎么办?Direct采用kafka低级api,直接连接到kafka的分区,rdd中的分区与kafka中的分区是一一对应的,他是一边拉取数据,一边处理数据,到达设置的时间间隔后,就作为一个批次进行计算结果。2. 可靠性保证Direct可以提供一...原创 2019-03-29 21:57:21 · 488 阅读 · 0 评论 -
Spark Streaming物品排名
Scala:package cn.spark.study.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Secondsimport org.apache.spark.sql.Ro...原创 2019-03-26 17:41:05 · 423 阅读 · 0 评论 -
Spark Streaming持久化机制
可以对DStream调用persist()方法持久化到内存中。对于基于窗口的操作,比如reduceByWindow、reduceByKeyAndWindow,以及基于状态的操作,比如updateStateByKey,默认就隐式开启了持久化机制,不需要手动调用persist()方法持久化到内存中。对于通过网络接收数据的输入流,比如socket、Kafka、Flume等,默认的持久化级别是将数...原创 2019-03-26 17:57:07 · 246 阅读 · 0 评论 -
Spark Streaming checkpoint
1、元数据checkpoint——将定义了流式计算逻辑的信息,保存到容错的存储系统上,比如HDFS。当运行Spark Streaming应用程序的Driver进程所在节点失败时,该信息可以用于进行恢复。元数据信息包括了: 1.1 配置信息——创建Spark Streaming应用程序的配置信息,比如SparkConf中的信息。 1.2 DStream的操作信息——定义了Spark St...原创 2019-03-26 22:22:42 · 275 阅读 · 0 评论 -
StreamingContext初始化与Receiver启动原理
Spark Streaming创建时会初始化DStreamGraph和JobScheduler等关键组件,然后调用数据输入方法拉取数据形成Dstream,然后使用Dstream的一系列Transform转换操作,最后调用output方法来出发batch job的执行。上述初始化操作执行完之后,需要调用start方法来启动程序的执行,它会创建另外两个重要的组件:ReceiverTracker和J...原创 2019-03-31 20:42:05 · 374 阅读 · 0 评论 -
Spark Streaming checkpoint整体架构原理
StreamingContext会初始化一些内部的关键组件:DstreamGraph/ReceiverTraker/JobGenerator/JobSchedulerDstreamGraph:表示各个Dstream之间的依赖关系。JobGenerator:根据DstreamGraph定义的算子和各个Dstream之间的依赖关系去生成一个job,job的初始RDD,就是刚创建的batch...原创 2019-03-31 22:12:50 · 558 阅读 · 0 评论 -
Spark Streaming 常见操作、机制总结
Spark Streaming使用Receiver接收数据的话,会将数据存储在Executor内存中。预写日志机制预写日志机制,简写为WAL,全称为Write Ahead Log。从Spark 1.2版本开始,就引入了基于容错的文件系统的WAL机制。如果启用该机制,Receiver接收到的所有数据都会被写入配置的checkpoint目录中的预写日志。这种机制可以让driver在恢复的时候,...原创 2019-03-27 22:41:34 · 279 阅读 · 0 评论