介绍
Spark SQL由两个重要组成部分
- DataFrame API
- 将关系型的处理与过程型处理结合起来,可以对外部数据源和Spark内建的分布式集合进行关系型操作
- 压缩的列式存储,而不是Java/Scala对象
- Catalyst
- 提供了一整套性能分析、计划、运行时代码生成等的框架
- 非常容易的添加数据源、优化规则、数据类型(比如机器学习)、控制代码生成
Programming Interface
特点
(1)能够无缝地将SQL语句集成到Spark应用程序当中
(2)统一的数据访问方式
(3) 兼容Hive
(4) 可采用JDBC or ODBC连接
下篇将会写到SparkSQL核心,请大家关注