1. Spark SQL概述
1.1 什么是Spark SQL
Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方式有多种,包括SQL和Dataset API。计算结果时,使用相同的执行引擎,与您用于表达计算的API/语言无关。
Spark SQL是Spark的一个模块,用于处理结构化数据,提供比RDD更高效的数据处理接口。它允许无缝整合SQL查询和Spark编程,统一访问不同数据源,且兼容Hive。SparkSession作为新的起点,结合了SQLContext和HiveContext的功能。常用的数据处理方式包括方法调用、SQL语句和DSL特殊语法。此外,Spark SQL支持用户自定义函数,如UDF和UDAF。
Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方式有多种,包括SQL和Dataset API。计算结果时,使用相同的执行引擎,与您用于表达计算的API/语言无关。
2551
553

被折叠的 条评论
为什么被折叠?