1. 都可以通过SQL分析数据. |
2. 都可以处理大规模的数据. |
3. 都是处理结构化的数据. |
4. 都是提交到Yarn平台来使用. |
1. SparkSQL是基于内存的迭代计算, HiveSQL它是基于磁盘的迭代计算. |
2. HiveSQL仅仅能用SQL语言操作, SparkSQL除了能用SQL语句外, 还可以写DSL代码. |
3. Hive有专门的元数据管理服务叫metastore, Spark没有元数据管理服务, 而是由Spark自己来维护. |
4. HiveSQL底层是基于MR来运行的, 而SparkSQL底层是基于RDD来运行的. |