Spark&MapReduce的区别、多线程&多进程的区别

1.spark与hadoop区别:

本质:主要看是否进行磁盘的转换
hadoop:因为需要partition所以需要进行磁盘的转换存储
spark:则不需要这个

2.Spark多线程运行, MR多进程运行

多线程:因此spark作业适合于低延迟类型的作业
多进程:方便控制资源,进程是一个独享的空间,但是启动比较费时间,因此不适合低延迟类型的作业,导致MR时效性差
Spark缺点:因为不利于大作业的稳定运行,所以spark的稳定性没有MR稳定,所以spark中有catch函数进行缓存到内存中

3.MR存在的问题:

表达能力有限:
写MR通过脚本将Map和reduce任务进行串联起来,如果项目很大或者涉及到到的逻辑很繁琐
前期进行画图或者文档,然后再进行开发
spark: 通过代码直接将我们的数据处理连接起来

4.线程和进程的区别:

(还需要在总结下)
1、线程是进程的子集,简单理解 教室(进程),桌椅(线程)
2、线程启动快于进程,线程能够快速切换
3、进程是资源分配的最小单位,线程是程序执行的最小单位(资源调度的最小单位)
4、进程有自己的独立地址空间,每启动一个进程,系统就会为它分配地址空间,建立数据表来维护代码段、堆栈段和数据段,这种操作非常昂贵。
而线程是共享进程中的数据的,使用相同的地址空间,因此CPU切换一个线程的花费远比进程要小很多,同时创建一个线程的开销也比进程要小很多。
5、线程之间的通信更方便,同一进程下的线程共享全局变量、静态变量等数据,而进程之间的通信需要以通信的方式(IPC)进行。不过如何处理好同步与互斥是编写多线程程序的难点。
6、但是多进程程序更健壮,多线程程序只要有一个线程死掉,整个进程也死掉了,而一个进程死掉并不会对另外一个进程造成影响,因为进程有自己独立的地址空间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值