读了百度上的一些关于Spark on hive 与 Hive on Spark 的区别的文章,感觉理解太复杂,自己总结一下
Spark on Hive :数据源是:hive Spark 获取hive中的数据,然后进行SparkSQL的操作 (hive只是作为一个spark的数据源)。
Hvie on Spark :(数据源是hive本身) Hvie 将自己的MapReduce计算引擎替换为Spark,当我们执行HiveSQL(HQL)时
底层以经不是将HQL转换为MapReduce任务,而是跑的Spark任务(即:将HQL转换为Spark任务)。
我猜想你已经明白了哈哈哈~~~,不明白说明你的Hive和Spark学的都有问题。
本文深入解析了SparkonHive与HiveonSpark两种模式的关键区别。SparkonHive利用Hive作为数据源,通过SparkSQL进行数据处理;而HiveonSpark则是将Hive的MapReduce引擎替换为Spark,执行HiveSQL时底层运行的是Spark任务,而非传统的MapReduce。这一转变显著提升了大数据处理的效率与灵活性。
678

被折叠的 条评论
为什么被折叠?



