Linux内核：内存管理——内存计算

Linux加油站

于 2023-06-01 16:00:19 发布

阅读量187

点赞数

文章标签： linux Linux内核内存管理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74282605/article/details/130990268

版权

为什么并行计算？

计算量大
- 单进程算得不够快，多CPU算
内存需求大
- 单机内存不够大
- 内存随机访问比硬盘随机访问快100,000倍
I/O 量大
- 单个硬盘读写太慢，多个硬盘读写

并行计算的挑战

编程困难
- 并行性识别与表达，难写
- 同步语句，难写对
性能调优难，难写快（并行计算目标就是提升性能，性能调优难）
-负载平衡
- 局部性（高速缓存cache，使用cache可以快10倍左右）
容错难

并行计算中的局部性

矩阵相乘，按列访问会造成cache失效

分块算法，得到更高的局部性

高可用性

大数据处理系统通常是由大量不可靠服务器组成的，如果处理1个10天的大数据处理任务时在第8天机器坏掉怎么办？

重新计算不一定能解决问题

传统的容错方法不适用

锁步法（性能会有较大影响），多版本编程（多个人来编程，对比结果，软件容错）
检查点设置与恢复（保存程序状态，从保存状态位置继续执行，IO量大）

大数据处理并行系统

内存计算需求

用户只需要编写串行程序
自动并行化和分布式执行
自动容错
自动负载平衡
用户对系统提出了更高的要求
更复杂的多阶段任务
交互式查询
Map Reduce 的局限性
表达能力有限
- 只有Map 和Reduce两种操作
复杂任务通常需要迭代的 MapReduce
- 需要将中间结构保存在硬盘上
- 大量I/O操作造成性能急剧下降
引入的I/O操作多，只能做离线分析，很难支持数据的交互式查询

MapReduce 文件传递数据

如果能用内存保存数据࿱

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Linux内核：内存管理——内存计算

每次细粒度的数据更新，由于spark基于粗粒度RDD只读的数据对象模型，需要RDD变换，即有大量数据的复制，导致处理效率不高。操作为网络操作、内存拷贝操作、IO操作（由于数据是只读的）-> 效率低，大量内存拷贝。大数据处理系统通常是由大量不可靠服务器组成的，如果处理1个10天的大数据处理任务时在第8天机器坏掉怎么办？DRAM比硬盘快100,000倍，但是DRAM比片上cache慢6-200倍。RDD 高吞吐率，不允许做细粒度修改，换取好的容错能力和好的性能。用编程模型上的限制获取好的容错能力和高性能。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。