Spark SQL概念和用途
看官网介绍,Spark SQL是Apache Spark用于处理结构化数据的模块。
一、集成
将SQL查询与Spark程序无缝混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java,Scala,Python和R.
二、统一数据访问
以相同的方式连接到任何数据源。DataFrames和SQL提供了访问各种数据源的常用方法,包括Hive,Avro,Parquet,ORC,JSON和JDBC。您甚至可以跨这些来源加入数据。
三、Hive数据集成
在现有仓库上运行SQL或HiveQL查询。Spark SQL支持HiveQL语法以及Hive SerDes和UDF,允许您访问现有的Hive仓库。
四、标准连接
通过JDBC或ODBC连接。服务器模式为商业智能工具提供行业标准JDBC和ODBC连接。