【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介（超详细）

最新推荐文章于 2024-04-26 09:33:16 发布

showswoller

最新推荐文章于 2024-04-26 09:33:16 发布

阅读量1.5k

点赞数 8

分类专栏：云计算与大数据技术文章标签：大数据云计算 hadoop spark hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128299546

版权

云计算与大数据技术专栏收录该内容

23 篇文章 9 订阅

订阅专栏

一、CPU多核和POISX Thread

为了提高任务的计算处理能力，下面分别从硬件和软件层面研究新的计算处理能力

在硬件设备上,CPU 技术不断发展,出现了SMP(对称多处理器)和 NUMA(非一致性内存访问)两种高速处理的 CPU 结构

在软件层面出现了多进程和多线程编程。进程是内存资源管理单元,线程是任务调度单元

总的来说，线程所占用的资源更少，运行一个线程所需要的资源包括寄存器，栈，程序计数器，早期不同厂商提供了不同的多线程编写库，以充分利用多个不同的线程库，组成POSIX Thread的API分成以下四个大类

1：线程管理线程管理主要负责线程的create detach join等等也包括线程属性的查询和设置

2：mutexes 处理同步的例程称为mutex，mutex提供了create destroy lock和unlock等函数

3：条件变量条件变量主要用于多个线程之间的通信和协调

4：同步同步用于管理读写锁，以及barriers

POSIX Thread 多线程编程标准

二、MPI并行计算框架

MPI (Message Passing Interface 消息传递窗口 )是一个标准且可移植的消息传递系统，服务于大规模的并行计算

广泛采用的实现有 MPICH

MPICH 包括 ADI3、CH3 Device、CH3Interface、Nemesis、Nemesis Net ModInterface

MPICH架构如下

三、Hadoop MapReduce

Hadoop是一个由 Apache基金会开发的分布式系统基础架构

Hadoop框架最核心的设计就是 HDFS和 MapReduce

HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合有着超大数据集的应用程序，HDFS放宽了POSIX的要求，可以用流的形式访问文件系统中的数据

MapReduce为海量的数据提供了计算

指定一个 Map 函数 ,用来把一组键值对映射成一组新的键值对, 指定并发的 Reduce函数，用来保证所有映射的键值对中的每一个共享相同的键组

四、Spark

Spark 是 UC Berkeley AMPLab所开源的类 Hadoop MapReduce的通用的并行计算框架

Spark 基于 map-reduce 算法实现的分布式计算，拥有 Hadoop MapReduce 所具有的优点

不同于 MapReduce的是中间输出和结果可以保存在内存中

Spark 最主要的结构是RDD (Resilient Distributed Datasets)，它表示已被分区、不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现

因此Spark很适合迭代运算比较常见的机器学习算法、交互式数据挖掘等等。

五、数据处理技术的发展

数据处理从早期的共享分时单 CPU 操作系统处理到多核并发处理

早期 Google公司的分布式计算框架 MapReduce采用的思想就是连接多台廉价的计算设备，以此来提供进行大规模计算任务的能力

为了满足实时计算任务需求，设计实现了流计算框架，比如Spark Streaming、Storm 、Flink 等实时计算框架

目前处理技术在往大规模、低延迟方向发展

创作不易觉得有帮助请点赞关注收藏~~~

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介（超详细）

【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介（超详细）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。