Spark
Spark入门包含sparkRDD、sql、Streaming等内容
fql123455
这个作者很懒,什么都没留下…
展开
-
Spark SQL
概述Spark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load )工具(类似于Hive-1.x构建在MapReduce之上)。同时Spark RDD不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为止Spark...原创 2019-10-08 20:58:27 · 249 阅读 · 0 评论 -
Structured Streaming
什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式计算流数据。Structured Streaming底层会调用Spark SQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可...原创 2019-10-10 19:31:23 · 940 阅读 · 0 评论 -
Spark-DStream的窗口计算
基本概念Spark Steaming支持对某个时间窗口内实现对数据计算上图描绘了是以3倍的微批次作为一个窗口长度,并且以2倍微批次作为滑动间隔。将落入到相同窗口的微批次合并成一个相对较大的微批次-窗口批次。Spark要求所有的窗口的长度以及滑动的间隔必须是微批次的整数倍滑动窗口:窗口长度 > 滑动间隔 窗口与窗口之间存在元素的重叠。滚动窗口:窗口长度 = 滑动间隔 窗口...原创 2019-10-04 14:39:37 · 893 阅读 · 0 评论 -
Spark-Stage划分源码剖析
Stage的划分依据Stage:每个任务会被划分为若干个阶段,每个都有自己的并行度,阶段与阶段之间有相互的依赖关系。Stage的划分依赖于(RDD血统),宽|窄依赖之间的关系。如果为窄依赖则划分为一个Stage,如果为宽依赖则建立一个新的Stage。Spark 在任务的提交的时候会调用DAFScheduler方法根据最后一个RDD逆向推导出任务的阶段(根据宽窄依赖)#宽|窄依赖详解剖析由D...原创 2019-09-26 20:10:45 · 188 阅读 · 0 评论 -
Spark-RDD
RDD的概述俯视整个Spark程序,所有Spark的Application都包含一个Driver程序,该程序是用户的主函数以及在集群中执行各种各样的并行操作。Spark中提出了一个核心的概念 resilient distributed dataset 简称 RDD,RDD是一个并行的分布式集合 ,该集合数据可以跨节点存储,所有的RDD操作都是在集群的计算节点中并行的执行。RDD可以直接通过Had...原创 2019-09-25 20:31:33 · 390 阅读 · 0 评论 -
Spark的概念和架构
Spark 概述Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务)。快:相比较于上一代离线框架MapReduce(磁盘)而言Spark基于内存计算较快。统一:Spark提供统一API访问接口实现批处理、流处理、SQL、Machine Learinng、图形关系分析等。Spark快的原因使用先进的DAG(有向无环图)设计。MapReduce:矢...原创 2019-09-24 18:36:26 · 351 阅读 · 1 评论