Hive
-
将库和表的元数据(metadata)存储在关系型数据库(MySQL)
-
将表的内容数据(data)存储在HDFS
-
通过命令行终端(hive)或者使用JDBC服务(hiveserver2)连接Hive集群,将HQL提交到集群通过MapReduce运行
SparkSQL
-
将库和表的元数据(metadata)存储在关系型数据库(MySQL)
-
将表的内容数据(data)存储在HDFS
-
通过命令行终端(spark-sql)或者使用JDBC服务(thriftserver)连接Spark集群,将HQL提交到集群通过SparkRDD运行
-
SparkSQL也提供了DSL、SQL的编程api,程序入口SparkSession,数据抽象Dataset\DataFrame
将原有Hive数仓切换到SparkSQL
-
将Hive的hive-site.xml拷贝到Spark集群的conf目录
-
将元数据的jdbc驱动包拷贝到Spark集群的jars目录中