![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark内核
主要介绍Spark框架以及内部核心机制
MichaelZhu
这个作者很懒,什么都没留下…
展开
-
SparkSQL优化之输入小文件是否需要合并?
Note: spark版本2.3.1 HiveSQL优化时, 输入分片需要开启参数进行合并, 否则会产生很多分片. 那么SparkSQL是如何应对大量输入小文件的呢? 本例以Hive表为例(大量parquet小文件, 可切分). 首先我们Debug到这里(“package org.apache.spark.sql.execution.FileSourceScanExec”) 这里有个模式匹配, 我们是非分区表, 走默认匹配. 代码如下 private def createNonBucketedRead原创 2020-05-28 15:55:58 · 2485 阅读 · 0 评论 -
Spark任务提交流程(整理版)
一、client提交任务到RM. 二、RM启动AM. 三、AM启动Driver线程, 并向RM申请资源. 四、RM返回可用资源列表. 五、AM通过nmClient启动Container, 并且启动ExecutorBackend后台进程. 六、Executor反向注册给Driver 七、Executor启动任务原创 2020-05-26 22:11:27 · 1867 阅读 · 0 评论 -
Spark任务提交流程
Spark的任务, 生产环境中一般提交到Yarn上执行. 具体用法如下 spark-submit \ --class com.gaia.familymart.test.ConnectES \ --name connES \ --master yarn \ --deploy-mode client \ --jars /home/fmtt/elasticsearch-spark-20_2.11-7.5.0.jar \ --driver-memory 1G \ --executor-memory 6G \ -原创 2020-05-26 17:40:48 · 1032 阅读 · 0 评论 -
Spark-Core、Spark-SQL的内核机制
Spark基于内存运算, 是MapReduce的下一代替换计算框架, 主要包含Spark-Core、Spark-SQL、Spark-Streaming、Spark-ML. 本系列只介绍Spark-Core和Spark-SQL的内核机制. 本系列分以下几篇文章. 1、Spark的任务提交流程(Spark-Core和Spark-SQL通用) 2、Spark-Core的阶段划分, 以及任务执行 3、Spark-SQL的Shuffle介绍 ...原创 2020-05-26 15:51:29 · 200 阅读 · 1 评论