大数据学习地图：从单机到集群，奠定分布式存储与分布式计算的基础

遇码

于 2025-04-30 13:19:13 发布

阅读量293

点赞数 6

分类专栏：大数据文章标签：大数据学习分布式集群分布式存储分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tsingwin/article/details/147630021

版权

大数据专栏收录该内容

42 篇文章

订阅专栏

电脑经常卡顿，我们很自然地会想到换一台配置更高的电脑。对企业而言也一样，例如当网站用户增加，并发就会增加，服务器资源（CPU、内存、磁盘）不够，那就换一台配置更高的服务器。然而有一个现实问题摆在面前，单台服务器的配置终究是有上限的。

集群的出现

不得不承认，有些人生来就是为改变世界、推动技术进步而生的。

我们想象一下，一节电池的能量可能很小，维持手电筒的照明都很吃力。但是将上千甚至上万节电池组合在一起，就造就了现如今欣欣向荣的新能源汽车行业。

早在1967年，IBM的吉恩•阿姆达尔出版了并行处理的开创性论文阿姆达尔定律。第一个被设计成集群的生产系统是20世纪60年代中期的Burroughs B5700，它允许多达四台计算机（每个计算机都有一个或两个处理器）紧密连接到一个公共磁盘存储系统，以平衡工作负载。与标准的多处理器系统不同，每台计算机都可以在不中断整体运行的情况下重新启动。

此时的集群适用于任务数多，但是每个任务消耗的资源少，只要把大量的任务平均分配到更多服务器上就可以。需要注意的是，集群是共享存储系统。

早期集群的问题

早期集群突破了单机性能的限制，解决了并发问题。但是随着互联网和移动互联网等技术的崛起，又有了新的挑战。

共享存储

集群共享存储，也就是只有一块物理存储设备。如果硬件坏了怎么办？有人会说可以做备份。但是多久备份一次，恢复备份需要多久时间，恢复期间服务不可用怎么办。

大任务处理

小任务比较多可以分散处理，但是如果一个任务本身就需要消耗很多计算资源呢？比如对1T的数据进行计数计算。这个任务不管落在哪台机器上都是灾难性的。

针对上述问题，该如何解决呢？

进阶

单台高配服务非常贵，那么有没有一种可能，将廉价的服务器组合起来使用，不仅可以平衡大量任务，还可以处理单个大任务，更重要的是再也不用担心数据磁盘突然坏掉。这些看似无法解决的问题，催生了分布式计算和分布式存储的发展。想要继续学习大数据相关技术，可以关注公众号：遇码，回复学习地图，获取全部教程。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。