1、SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成一种特殊的RDD(DataFrame),然后在Spark集群中运行
2、SparkSQL是用来处理结构化数据的(如果不是结构化数据,先将非结构化的数据转换成结构化数据)
3、SparkSQL支持两种编程API
1.SQL方式
2.DataFrame的方式(DSL)
4、SparkSQL兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)
5、SparkSQL支持统一的数据源,课程读取多种类型的数据
6、SparkSQL提供了标准的连接(JDBC、ODBC),以后可以对接一下BI工具