Spark&MapReduce的区别、多线程&多进程的区别
1.spark与hadoop区别:
本质:主要看是否进行磁盘的转换
hadoop:因为需要partition所以需要进行磁盘的转换存储
spark:则不需要这个
2.Spark多线程运行, MR多进程运行
多线程:因此spark作业适合于低延迟类型的作业
多进程:方便控制资源,进程是一个独享的空间,但是启动比较费时间,因此不适合低延迟类型的作业,导致MR时效性差
Spark缺点:因为不利于大作业的稳定运行,所以spark的稳定性没有MR稳定,所以spark中有catch函数进行缓存到内存中
3.MR存在的问题:
表达能力有限:
写MR通过脚本将Map和reduce任务进行串联起来,如果项目很大或者涉及到到的逻辑很繁琐
前期进行画图或者文档,然后再进行开发
spark: 通过代码直接将我们的数据处理连接起来
4.线程和进程的区别:
(还需要在总结下)
1、线程是进程的子集,简单理解 教室(进程),桌椅(线程)
2、线程启动快于进程,线程能够快速切换
3、进程是资源分配的最小单位,线程是程序执行的最小单位(资源调度的最小单位)
4、进程有自己的独立地址空间,每启动一个进程,系统就会为它分配地址空间,建立数据表来维护代码段、堆栈段和数据段,这种操作非常昂贵。
而线程是共享进程中的数据的,使用相同的地址空间,因此CPU切换一个线程的花费远比进程要小很多,同时创建一个线程的开销也比进程要小很多。
5、线程之间的通信更方便,同一进程下的线程共享全局变量、静态变量等数据,而进程之间的通信需要以通信的方式(IPC)进行。不过如何处理好同步与互斥是编写多线程程序的难点。
6、但是多进程程序更健壮,多线程程序只要有一个线程死掉,整个进程也死掉了,而一个进程死掉并不会对另外一个进程造成影响,因为进程有自己独立的地址空间。