Hive 将HiveSQL转换为MapReduce提交到集群上运行,简化了编写MapReduce的复杂性。 由于MapReduce计算模型(基于磁盘)执行效率比较慢,于是Spark(基于内存)推出了SparkSQL SparkSQL 将SparkSQL转换为RDD,然后提交到集群上运行,执行效率比MapReuce快。 🔺如果数据超过10PB,建议使用Hive,Hive可以处理100PB级别的数据,而Spark不太适合超过这个上限的数据。