![](https://img-blog.csdnimg.cn/20200616231648927.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
SparkStreaming
sas
稳哥的哥
babe babe babe wowowowowowoow~!
寒江孤影、江湖故人
展开
-
SparkStreaming的调优tuning
SparkStreaming之优化除了Spark的常规调优(序列化、内存调整、RDD优化、缓存、共享变量等等)之外,SparkStreaming还有一些重要的调优手段,那么下面就开始介绍SparkStreaming应该从哪些方面进行优化那么如何提高SparkStreaming应用程序的性能呢?作为一个Spark高手,你需要考虑2个方面充分的利用集群的资源来减少每个batch批次的数据的处理时间设置合适的批次大小,让所有批次的数据能在接收到之后能尽快的处理完(让数据的ingest于数据的proc原创 2020-06-09 22:05:21 · 418 阅读 · 0 评论 -
SparkStreaming之`共享变量(Accumulator & broadcastVar)`与checkpoint的关系
SparkStreaming之共享变量(Accumulator & broadcastVar)与checkpoint的关系在SparkStreaming中,Accumulator & Broadcast是不能从checkpoint中进行恢复的,如果在程序中同时用到了共享变量与checkpoint操作,那么我们需要为累加器和广播变量创建懒汉式的单例模式,以便在Driver程序发生故障时,重新启动后可以重新实例化它们,实例代码如下:object WordBlacklist { @vol原创 2020-05-24 11:16:53 · 261 阅读 · 0 评论 -
SparkStraming之Checkpoint
SparkStraming之Checkpointcheckpoint介绍一个流式应用必须7*24小时正常在线,而且能够容忍一些与逻辑处理无关的失败(比如:系统崩溃、JVM的宕掉)为了达到以上这些,SparkStreaming为程序设置足够的信息作为保存点,记录计算的状态、结果等,同时将信息保存在一个容错的存储系统如HDFS,以至于能从失败中恢复,这里有2种数据将会被自动设置检查点元数据的checkpoint将定义数据计算的信息(元数据)保存在容错系统如HDFS上,这被用作恢复Streami原创 2020-05-24 10:24:18 · 200 阅读 · 0 评论 -
SparkStreaming之persist缓存
SparkStreaming之缓存与RDD的缓存类似,DStream也允许用户将数据持久化到内存中,只需要使用DStream.persist()方法,就会自动将DSstream中的数据缓存在内存中,这对需要多次计算的DStream数据是一个很好的优化,对于window操作「比如reduceByWindow,reduceByKeyAndWindow」和state操作算子如「updateStateByKey」,默认就是将数据进行缓存持久化的。一、对于window算子会自动将数据持久化在内存中,不需要手动调原创 2020-05-22 22:07:17 · 518 阅读 · 0 评论 -
SparkStreaming之foreachRDD的正确使用姿势
SparkStreaming之foreachRDD的正确使用姿势1、错误方式假如connection不支持序列化,那么会报序列化相关的异常,因为connection在Driver端生成,一般的连接是不支持序列化的,需要被序列化之后传递到Executor端,所以这样尽量避免dstream.foreachRDD { rdd => //创建一个连接 val connection = createNewConnection() // 代码在Driver端执行 rdd.foreach {原创 2020-05-21 19:19:36 · 285 阅读 · 0 评论 -
SparkStreamingReceiver&Direct方式的消息处理方式对比和代码示意
SparkStreaming2种不同的版本集成SparkStreaming与kafka的集成有2套一、Spark-streaming-kafka-0-8二、Spark-streaming-kafka-0-10Spark-streaming-kafka-0-8Spark-streaming-kafka-0-10支持的kafka-Broker版本0.8.2.1 或 更高版本0.10.0 或 更高版本目前是否被遗弃deprecated after spark2.3.0原创 2020-05-21 18:49:56 · 179 阅读 · 1 评论 -
SparkStreaming的普通transform算子和一些特殊的output算子使用
SparkStreaming之特殊算子常见的算子大家还是参考官网:官网SparkStreaming算子其实DStream与RDD的算子大概都差不多,有个别差异,相同的相信大家都懂,比如map()\flatMap()\filter()\reduceByKey()\repartition()\union()\join()等等但是有一些不同的下面我们来一一对比区别算子count()reduce()countByValue()1、count()在RDD的的count是一个执行算子,返回rdd中原创 2020-05-21 00:10:56 · 296 阅读 · 0 评论 -
SparkStreaming2.4.0的kafka2.0.0数据源&其他基本数据源的深入讲解
SparkStreaming之Source(Kafka等)SparkStreaming的数据源大致可分为3种:Basic普通数据源Advanced高级数据源Custom自定义数据源建议在将逻辑运行分布到Spark集群时,分配给Spark应用的核数必须大于receiver接收器的个数,否则会出现系统能几首数据,但是不能够处理完数据的数据阻塞现象。1、Basic普通数据源官网数据源介绍供参考SparkStreaming的普通数据源有文件系统【HDFS、GFS等】、本地文件目录、RDD队列、S原创 2020-05-19 17:59:06 · 744 阅读 · 1 评论 -
SparkStreaming是什么
SparkStreaming概述SparkStreaming官网简介1、简介SparkStreaming作为Spark的核心API的扩展,同时SparkStreaming具有很强大的特性:1、高扩展性2、高吞吐性3、高容错性4、实时数据处理(micro batch processing)数据能从多种不同的数据源注入到SparkStreaming,常用的数据源有:KafkaFlumeKenesisTCP socketFile同时SparkStreaming提供了许多高级AP原创 2020-05-19 10:18:35 · 1123 阅读 · 0 评论