spark
Aponson
这个作者很懒,什么都没留下…
展开
-
【Spark内存计算框架】SparkStreaming调优策略
007SparkStreamingSparkStream的核心抽象是DStream调优策略:Sparkstreaming+kafka,用不到receiver,选择direct方式基于receiver基于directshuffle上游shuffle下游调整数据处理的并行度(task)数据的序列化SparkStreaming两种需要序列化的数据:a. 输入的数据:默认是以StorageLevel.MEMORY_AND_DISK_SER_2的形式存储在executor上的内存中b. 缓存原创 2020-07-26 18:19:34 · 275 阅读 · 0 评论 -
【Spark内存计算框架】为什么数据会丢失?因为没有去管理偏移量_监听器管理偏移量
006SparkStreaming怎么去提交偏移量监听器管理偏移量怎么去提交偏移量任务运行完,然后提交偏移量。提交偏移量,首先要知道当前的偏移量offset是多少?偏移量存在哪里?val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)messages这里面是有偏移量信息的,但是只要对messages这个对象做一下操作,里面偏移量信原创 2020-07-23 19:23:27 · 588 阅读 · 0 评论 -
【Spark内存计算框架】SparkStreaming应用程序如何保证Exactly-Once_ScalikeJDBC
005SparkStreamingSparkStreaming应用程序如何保证Exactly-OnceScalikeJDBC什么是ScalikeJDBCIDEA项目中导入相关库(pom文件)数据库操作数据库连接配置信息加载数据配置信息查询数据库并封装数据插入数据AutoCommit插入返回主键标识事务插入更新数据SparkStreaming应用程序如何保证Exactly-Once一个流式计算如果想要保证Exactly-Once,那么首先要对这三个点有有要求:(1)Source支持Replay。(2)原创 2020-07-23 18:32:55 · 147 阅读 · 0 评论 -
【Spark内存计算框架】SparkStreaming与Kafka0.8版本整合数据不丢失方案
004SparkStreaming方案设计偏移量存入Zookeeper方案设计偏移量存入Zookeeper/** * 自己管理offset */class KafkaManager(val kafkaParams: Map[String, String]) extends Serializable { private val kc = new KafkaCluster(kafkaParams) /** * 创建数据流 */ def createDirectStr原创 2020-07-23 17:52:53 · 200 阅读 · 0 评论 -
【Spark内存计算框架】SparkStreaming容错_SparkStreaming和Kafka进行整合
003SparkStreamingSparkStreaming容错Executor失败Driver失败保证数据不丢失推测执行SparkSreaming语义SparkStreaming和Kafka进行整合方式一:Receiver-based Approach(不推荐使用)方式二: Direct Approach (No Receivers)SparkStreaming与Kafka-0-8整合SparkStreaming与Kafka-0-10整合SparkStreaming容错SparkStreaming原创 2020-07-23 16:45:21 · 328 阅读 · 0 评论 -
【Spark内存计算框架】SparkStreaming程序编写_mapWithState_transform_window_foreachRDD_checkpoint_sparkSQL
002SparkStreamingSparkStreaming程序编写input(数据的输入)transform(数据的处理)updateStateByKeymapWithStatetransformWindow操作output(数据的输出)foreachRDDcheckpointSparkStreaming和SparkSQL整合SparkStreaming程序编写步骤一:初始化程序入口步骤二:获取数据流步骤三:数据处理步骤四:数据输出步骤五:启动任务工作中基本上这个五个步骤,以及公用部分的封原创 2020-07-22 19:07:09 · 343 阅读 · 0 评论 -
【Spark内存计算框架】SparkStreaming简介_SparkStreaming的运行流程_入门程序单词统计_实时数据源
001SparkStreaming实时任务简介SparkStreaming的程序入口什么是Stream流入门程序wordcount单词统计WordCount实时任务流程序步骤scala版本java版本实时任务SparkStreaming程序的数据源Socket数据源HDFS数据源自定义数据源Kafka数据源实时任务简介Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Ki原创 2020-07-21 20:48:34 · 509 阅读 · 0 评论 -
【Spark内存计算框架】spark集群架构_spark集群安装部署
Spark001前提1.Spark是什么2.Spark的四大特性2.1速度快2.2 易用性2.3 通用性2.4 兼容性3.Spark集群架构4. spark集群安装部署5. spark集群的启动和停止5.1 启动5.2 停止6. spark集群的web管理界面前提安装好对应版本的hadoop集群安装好对应版本的zookeeper集群1.Spark是什么官网spark.apache.orgApache Spark™ is a unified analytics engine for lar原创 2020-07-10 11:54:11 · 405 阅读 · 0 评论