![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkSQL
金戈拉斯
不忘初衷,方能始终!
展开
-
Spark-SQL常用调优参数汇总
写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要是日常工作的积累,主要是简单罗列了常见的spark SQL的参数及其含义。#Job ID /Namespark.app.name=clsfd_ad_attr_map_w_mvca_ins#yarn 进行调度,也可以是mesos,yarn,以及standa...原创 2019-05-18 20:24:59 · 3631 阅读 · 0 评论 -
Spark-SQL 面试准备 3
Spark Knowledge No.321.driver的功能是什么:答:1.一个spark作业运行时包括一个driver进程,也就是作业的主进程,具有main函数,并且有sparkContext的实例,是程序的入口;2.功能:负责向集群申请资源,向master注册信息,负责了作业的调度,负责了作业的解析,生成stage并调度task到executor上,包括DAGScheduler,Ta...原创 2020-01-20 15:16:45 · 340 阅读 · 0 评论 -
Spark-SQL 面试准备 2
Spark Knowledge NO.211.RDD缓存:Spark可以使用 persist 和 cache 方法将任意 RDD 缓存到内存、磁盘文件系统中。缓存是容错的,如果一个 RDD 分片丢失,可以通过构建它的 transformation自动重构。被缓存的 RDD 被使用的时,存取速度会被大大加速。一般的executor内存60%做 cache, 剩下的40%做task。Spark中...原创 2020-01-20 14:29:48 · 413 阅读 · 0 评论 -
Spark-SQL 面试准备 1
Spark Knowledge NO.11. spark中的RDD是什么,有哪些特性?答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合Resilient:表示弹性的,弹性表示Dataset:就是一个集合,用于存放数据的Destributed:分布式,可以并行在集...原创 2020-01-20 14:28:00 · 1451 阅读 · 1 评论 -
Spark SQL 基本概念
写在前面的话:因为本人在职,所以没有充分的时间写博客,所以经常是写好整个框架,再陆陆续续的补充修改。所以如果发现什么错误请留言。本文主要目的是记录在阅读Spark源码时发现的SQL基本概念的知识遗漏,这样可以更加快速的阅读源码的注释,毕竟那都是专业人员用专业术语写成的。这个博客会持续更新到放弃阅读为止。基本术语列表:谓词(predicate):返回值为真值(TRUE/FALSE/UNKNO...原创 2019-05-19 08:58:41 · 530 阅读 · 0 评论