,首先要区分分布式概念,分布式指的是将一个任务切分成多块分到多台机器运行. 2,进程可以理解成该服务器分到的那一块任务(MapReduce每分到一个任务会重启一个进程).
3,线程可以 理解成在进程的基础之上又细分的更小的任务.
4,在任务级别(特指Spark任务和MapReduce任务)上却采用了不同的并行机制:Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型.
5,多进程模型便于细粒度控制每个任务占用的资源,但会消耗较多的启动时间,不适合运行低延迟类型的作业,这是MapReduce广为诟病的原因之一。而多线程模型则相 反,该模型使得Spark很适合运行低延迟类型的作业。总之,Spark同节点上的任务以多线程的方式运行在一个JVM进程中,可带来以下好处:
1)任务启动速度快,与之相反的是MapReduce Task进程的慢启动速度,通常需要1s左右;
2)同节点上所有任务运行在一个进程中,有利于共享内存。这非常适合内存密集型任务,尤其对于那些需要加载大量词典的应用程序,可大大节省内存.
3)同节点上所有任务可运行在一个JVM进程(Executor)中,且Executor所占资源可连续被多批任务使
MapReduce多进程与Spark多线程
最新推荐文章于 2020-08-10 08:47:43 发布