什么是spark SQL
SQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。
通常来说Hadoop是一整套大数据解决方案,包括了存储(HDFS)、计算(MapReduce)和资源调度管理(Yarn)。hive是Hadoop生态发展起来的一个数据仓库,可以使用hive SQL实现MR,并且将HDFS映射成表。而spark是基于内存计算的大数据并行计算框架,可以更快第实现数据计算。
spark SQL执行步骤
大部分的SQL,解析执行过程类似:通常用户在客户端发送SQL请求,先判断请求是否合法,包括权限检查等;然后SQL解析器对SQL进行语法语义的解析,SQL优化器会生成最优执行计划。
spark SQL执行顺序
要对SQL调优,肯定是要对SQL关键字执行顺序有所认识。这样便于我们更好地调整SQL。以下是一条SQL所有关键字执行顺序。
join原理
SQL的所有操作,可