spark
瞧德
你好
展开
-
Spark(2.1.2):DAGScheduler、TaskScheduler源码跟踪分析
Spark调度的基本概念Task:任务,单个分区数据集上的最小处理流程单元 TaskSet:任务集,由一组关联的,但互相之间没有shuffle依赖关系的任务组成的集合 Stage:步骤,一个任务集的调度阶段 Job:作业,由一个RDD Action操作生成的一个或多个Stage组成的一次计算作业 Application:应用程序,由一个或多个Job组成在SparkContext中...原创 2019-08-03 01:38:08 · 846 阅读 · 0 评论 -
Spark:RDD编程总结(概述、算子、分区、共享变量)
目录1、RDD概述1.1、RDD是什么1.2、RDD的弹性1.3、RDD的特点1.3.1、分区1.3.2、只读1.3.3、依赖1.3.4、缓存1.3.5、检查点2、RDD编程2.1、RDD创建2.1.1、并行化集合2.1.2、读取外部数据集2.2、RDD的操作2.2.1、转换2.2.2、行动2.2.3、控制 1)缓...原创 2019-08-04 16:35:22 · 2105 阅读 · 0 评论 -
Spark:RDD数据分区数量总结(并行化集合parallelize与外部数据集textFile)
目录1、创建RDD2、RDD分区有关操作2.1、查看分区方式2.2、查看分区数2.3、查看不同分区内的数据2.4、重新分区2.5、设置分区数3、分区数3.1、并行化集合3.2、外部数据集textFile4、新版API中FileInputFormat的分片1、创建RDDSpark提供了两种方式创建RDD:读取外部数据集,如SparkContex...原创 2019-07-27 13:47:02 · 3127 阅读 · 0 评论 -
Spark:概述、体系架构、三种模式部署
目录1、概述1.1、spark是什么1.2、spark特点1.3、spark软件栈1.3.1、Spark Core1.3.2、Spark Streaming1.3.3、Spark SQL1.3.4、Spark MLlib1.3.4、GraphX2、体系架构2.1、驱动器节点2.2、执行器节点2.3、集群管理器2.4、Spark编程模型3、...原创 2019-07-28 16:27:23 · 1727 阅读 · 0 评论 -
Spark:SparkSQL学习总结
目录1、SparkSQL概述1.1、SparkSQL是什么1.2、Spark SQL 的特点1.3、RDD/DataFrame/DataSet1.3.1、RDD1.3.2、DataFrame1.3.3、DataSet1.3.4、三者的共同点/区别1.4、SparkSQL执行流程2、SparkSQL查询解析2.1、SparkSession2.2、Dat...原创 2019-08-06 21:30:17 · 2421 阅读 · 0 评论 -
Spark:Spark Streaming概述、DStream离散流、flume+kafka+Spark Streaming
目录1、Spark Streaming概述1.1、Spark Streaming是什么1.2、Spark Streaming特点1.3、与其他流处理产品对比2、Spark Streaming 快速开始3、DStream离散流3.1、DStream概述3.2、DStream的输入3.2.1、基本数据源 文件数据源 自...原创 2019-08-18 15:55:01 · 1320 阅读 · 0 评论 -
Spark:JVM内存管理
目录1、Heap2、Minor GC & Full GC2.1、垃圾回收流程2.2、Spark中JVM优化原因3、Spark内存管理3.1、Spark 1.5.X及之前-静态内存管理3.2、Spark1.6.X及之后-Spark Unified Memory4、Spark(2.1.X)的JVM调优1、Heap由于Spark中的RDD实际上是Java...原创 2019-08-07 00:22:06 · 1343 阅读 · 0 评论 -
Structed Streaming(Continuous Processing报错):StreamingQueryException;java.util.NoSuchElementException
问题描述我在查询中使用了udf导致报错,因为目前spark2.4对Continuous Processing的查询仅支持投影类(projections),如select, map, flatMap, mapPartitions,etc。或者是选择类(selections),如where, filter, etc。官网描述As of Spark 2.4, only the ...原创 2019-09-29 11:42:08 · 1644 阅读 · 0 评论