1.Spark SQL概述
Spark SQL是Spark的核心组件,发布于Spark1.0.它可以运行SQL/Hive QL语句,包括UDFs,UDAFs和SerDes。它能够通过JDBC连接已经存在的BI工具。能够支持Python,Scala,Java和R语言。
Spark SQL它不仅仅有访问或操作SQL的功能,还提供了其他的非常丰富的操作:外部数据源、优化。
小结:(1)Spark SQL的应用不局限于SQL
(2)访问hive,json,parquet等文件的数据
(3)SQL只是Spark SQL的一个功能而已
(4)Spark SQL提供了SQL、DataFrame和Dataset的API
2.Spark SQL架构