1、基于内存计算
Hadoop
)shuffle 70%决定了效率 map->reduce 每次计算结果放到磁盘上(容错,容灾),io网络开销都比较大
Spark
当然对内存要求比较大
2、DAG 有向无环图
对数据的操作首先记录下来,暂时不执行(transform阶段),具体要结果的时候(reduceByKey)才会执行
3、任务调度机制( Scheduler)
一个虚拟机可以开多个任务
Spark不同任务间可以共享数据(内存级别)
Hadoop中不同任务共享数据--磁盘
4、容错机制(Lineage)
Hadoop中一个节点出错要重新运行