Spark&MapReduce的区别、多线程&多进程的区别

最新推荐文章于 2024-08-22 18:01:49 发布

栗子呀！

最新推荐文章于 2024-08-22 18:01:49 发布

阅读量683

点赞数

分类专栏：大数据Spark专栏文章标签：多线程操作系统 hadoop spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43665254/article/details/112645051

版权

大数据Spark专栏专栏收录该内容

17 篇文章 4 订阅

订阅专栏

Spark&MapReduce的区别、多线程&多进程的区别

1.spark与hadoop区别：
2.Spark多线程运行， MR多进程运行
3.MR存在的问题：
4.线程和进程的区别：

1.spark与hadoop区别：

本质:主要看是否进行磁盘的转换
hadoop:因为需要partition所以需要进行磁盘的转换存储
spark:则不需要这个

2.Spark多线程运行， MR多进程运行

多线程：因此spark作业适合于低延迟类型的作业
多进程：方便控制资源，进程是一个独享的空间，但是启动比较费时间，因此不适合低延迟类型的作业，导致MR时效性差
Spark缺点：因为不利于大作业的稳定运行，所以spark的稳定性没有MR稳定，所以spark中有catch函数进行缓存到内存中

3.MR存在的问题：

表达能力有限：
写MR通过脚本将Map和reduce任务进行串联起来，如果项目很大或者涉及到到的逻辑很繁琐
前期进行画图或者文档，然后再进行开发
spark: 通过代码直接将我们的数据处理连接起来

4.线程和进程的区别：

（还需要在总结下）
1、线程是进程的子集，简单理解教室(进程)，桌椅（线程）
2、线程启动快于进程，线程能够快速切换
3、进程是资源分配的最小单位，线程是程序执行的最小单位（资源调度的最小单位）
4、进程有自己的独立地址空间，每启动一个进程，系统就会为它分配地址空间，建立数据表来维护代码段、堆栈段和数据段，这种操作非常昂贵。
而线程是共享进程中的数据的，使用相同的地址空间，因此CPU切换一个线程的花费远比进程要小很多，同时创建一个线程的开销也比进程要小很多。
5、线程之间的通信更方便，同一进程下的线程共享全局变量、静态变量等数据，而进程之间的通信需要以通信的方式（IPC)进行。不过如何处理好同步与互斥是编写多线程程序的难点。
6、但是多进程程序更健壮，多线程程序只要有一个线程死掉，整个进程也死掉了，而一个进程死掉并不会对另外一个进程造成影响，因为进程有自己独立的地址空间。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。