文章目录
SparkSQL特性
1.可以在程序里使用SQL
2.DataFrames和SQL可以以相同方式连接外部数据源
3.HIVE的支持性,通过Spark查询HIVE已有的东西
4.它能够使用JDBC或者ODBC的方式来连接到你外部的其他的BI的工具上面
SparkSQL不止是写sql还有:sql,datasets,dataframes
Hive on Spark
Hive运行在MapReduce/Tez/Spark之上。之前hadoop的hive运行的时候,底层跑的是MapReduce。
Spark需要hadoop吗?
不需要,hadoop的hdfs和yarn,spark可以不跑在yarn上,也不一定要把数据写到hdfs上。
Spark需要Hive吗?
不需要,只要有metastore服务就行,能存元数据。metastore可以在其他节点起,然后spark只要在hive-site.xml里配置metastore的地址(thrift://…),这样就能做统一的元数据管理。
shark
写sql,基于hive解析,转换为rdd
Spark各版本特性
待更新
Spark1.6
Spark2.0
SQL 2003的支持,结构化流,UDF的支持