一图总结Hadoop、Hive和Spark的关系
Hadoop主要由两部分组成,分布式存储(HDFS)和分布式计算(MapReduce)。Hive使用类SQL语言,底层经过编译转为MapReduce程序,在Hadoop上运行,数据存储在HDFS上。Spark 将大数据集合抽象成一个 RDD 对象,然后提供了 transformation(转换)、action(动作)两大类算子函数,对RDD进行处理,并得到一个新的 RDD,然后继续后续迭代计算,像 Stream 流一样依次执行,直到任务结束。内部也是采用分片处理,每个分片都会分配一个执行线程。







