spark sql
道友,且慢
不愤不启,不悱不发,学习就应该是问题驱动的。
微信: bclz_007
展开
-
spark sql 任务失败------Container killed on request. Exit code is 137
问题spark sql 执行多表join,executor 退出,报错Container killed on request. Exit code is 137。问题分析137错误是内存OOM的报错,对于这种情况应该增加executor的内存,或者减少executor的task并发数。解决1、增加driver 或者 executor的内存编辑 spark-defaults.conf 配置spark.executor.memory 10gspark.driver.memory 10g或者原创 2020-07-23 14:44:10 · 2450 阅读 · 0 评论 -
SparkSQL – 从0到1认识Catalyst
详细说明了spark sql 怎么将sql 语句 转化为 物理计划的过程,这里记录一下方便以后查阅。SparkSQL – 从0到1认识Catalyst转载 2020-04-13 20:04:38 · 160 阅读 · 0 评论 -
Shark为何被抛弃?
Shark的来历Shark是由Reynold Xin从2011年开始主导开发的。当时Hive几乎是唯一的SQL-Hadoop的选择方案,然而hive的性能受限于MapReduce,无法使用spark的计算模型。Shark的提出就是针对这种需求的,它的目标是技能达到企业数据仓库的性能,又你能够具有MapReduce的水平扩展能力。Shark的实现原理Shark建立在Hive代码的基础上,只修改...原创 2019-12-17 07:09:52 · 745 阅读 · 0 评论 -
spark sql 源码分析
入口SQLContext// 用spark执行sql,返回一个DataFrame最为结果def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText)DataFrame,其实是针对数据查询这种应用,提供的一种基于RDD之上的全新概念,但是,其底层还是基于RDD的;它其实和关系型数据库中的表非常类似,但是底层做了很多的优化,D...原创 2019-12-10 16:45:19 · 442 阅读 · 0 评论