![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 69
zjlala96
努力学习,终生学习
展开
-
锁屏面试题百日百刷-Spark篇(二十一)
Spark RDD 和 MapReduce2的区别spark和Mapreduces谁快Spark sql又什么比hive快RDD的数据结构RDD算子里操作一个外部map比如往里面put数据,然后算子外再遍历mapSpark shuffle转载 2023-04-03 09:00:00 · 41 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(二十)
简要描述Spark写数据的流程Unified Memory Management内存管理模型Spark的动态内存占用机制序列化方法,并谈谈序列化有什么好处常见的数压缩方式转载 2023-04-02 09:00:00 · 53 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十九)
spark中task有几种类型rangePartioner分区器特点如何使用Spark解决TopN问题窄依赖父RDDSpark中的shuffle和Hadoop的Shuffle区别spark.default.parallelism转载 2023-04-01 09:00:00 · 48 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十八)
序列化Spark累加器有哪些特点spark hashParitioner的弊端parition和block有什么关联关系RangePartitioner分区的原理Spark如何自定义partitioner分区器转载 2023-03-31 09:00:00 · 51 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十七)
rdd有几种操作类型collect功能Spark程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数Spark Application在没有获得足够的资源,job就开始执行了,可能会导致什么问题Spark为什么要持久化转载 2023-03-30 09:00:00 · 47 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十六)
cache后面能不能接其他算子reduceByKey是不是actionSpark有哪些聚合类的算子Spark中的数据倾斜问题你有什么好的方案Spark的数据本地性Spark并行度RDD创建有哪几种方式转载 2023-03-29 09:00:00 · 44 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十五)
spark怎么整合hiveSpark读取数据,是几个Partition呢spark-submit的时候如何引入外部jar包转载 2023-03-28 09:00:00 · 40 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十四)
parquet文件存储格式Spark应用程序的执行过程Standalone模式下,Spark资源分配是粗粒度的FAIR调度模式的优点和缺点PU密集型的应用场景转载 2023-03-27 09:00:00 · 55 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十三)
Executor启动时,资源通过哪几个参数指定Spark中列出你所知道的调度器 java.lang.OutOfMemoryError: PermGen spacespark.driver.extraJavaOptions转载 2023-03-25 09:00:00 · 51 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十一)
Mapreduce和Spark的都是并行计算,那么他们有什么相同和区别spark工作机制spark的优化Yarn执行一个任务的过程转载 2023-03-23 09:00:00 · 44 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(十)
配置spark master的HASpark中driver的功能park中Work的主要工作Spark为什么比mapreduce快简单说一下hadoop和spark的shuffle相同和差异转载 2023-03-22 09:00:00 · 51 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(九)
Spark 机器学习和 Spark 图计算接触过没有,能举例说明你用它做过什么吗Spark 的 ML 和 MLLib 两个包区别和联系Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper原创 2023-03-20 08:45:00 · 220 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(八)
coalesce和repartition的区别Spark sql中cache缓存级别Spark sql中怎样释放缓存和缓存Shuffle默认并行度注册UDF函数join操作与left join操作的区别BroadCast join转载 2023-03-19 09:00:00 · 72 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(六)
Spark的小文件读取如何理解Spark的RDD数据结构分区Spark何时缓存数据Spark的Job调度模式转载 2023-03-16 21:24:19 · 56 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(五)
宽依赖、窄依赖怎么理解Job 和 Task 怎么理解讲讲Checkpoint机制检查点的本质转载 2023-03-15 09:00:00 · 51 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(四)
简述Spark的两种核心Shuffle的工作流程Spark常用算子reduceByKey与groupByKey的区别简述Spark中共享变量的基本原理Transformation和action转载 2023-03-14 09:00:00 · 72 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(三)
分别简述Spark中的缓存机制如何理解Spark中的血统概念(RDD)简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数引起Shuffle过程的Spark算子roupByKey算子底层实现转载 2023-03-13 09:00:00 · 64 阅读 · 0 评论 -
锁屏面试题百日百刷-Spark篇(一)
阐述下对Spark的并行度理解如何设置Application的并行度Spark有几种部署方式?请分别简要论述Spark提交作业参数(重点)为什么要用Yarn来部署Spark转载 2023-03-11 09:00:00 · 74 阅读 · 0 评论