《Hadoop》之"踽踽独行"（五）Hadoop简介及其Hadoop生态系统

最新推荐文章于 2023-03-05 22:36:48 发布

从明老师

最新推荐文章于 2023-03-05 22:36:48 发布

阅读量824

点赞数 1

分类专栏： hadoop 大数据文章标签： Hadoop简介 Hadoop历史发展 Hadoop生态圈 Hadoop解决的问题 Hadoop优点

本文链接：https://blog.csdn.net/Michael__One/article/details/85721024

版权

Hadoop是Apache基金会的开源分布式计算平台，针对数据大爆炸时代的需求，提供高效、可扩展的存储和分析。它解决了硬盘传输速度与容量提升不匹配导致的数据处理难题，通过分布式存储和MapReduce实现大数据的高效处理。Hadoop具有高可靠性、高效率、高可扩展性和低成本等特点，并拥有丰富的生态系统，包括Ambari、Hive、Spark等工具，用于集群管理、数据分析和工作流调度。

摘要由CSDN通过智能技术生成

一、Hadoop出现的原因

现在的我们，生活在数据大爆炸的年代。国际数据公司已经预测在2020年，全球的数据总量将达到44ZB，经过单位换算后，至少在440亿TB以上，也就是说，全球每人一块1TB的硬盘都存储不下。

一些数据集的大小更远远超过了1TB，也就是说，数据的存储是一个要解决的问题。同时，硬盘技术也面临一个技术瓶颈，就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量的提升。我们看下面这个表格:

年份	硬盘大小	传输速率	所需时间
1990	1370MB	4.4MB/s	5分钟
2010	1TB主流	100MB/s	3小时

可以看到，容量提升了将近1000倍，而传输速度才提升了20倍，读完一个硬盘的所需要的时间相对来说，更长更久了(已经违反了数据价值的即时性)。读数据都花了这么长时间，更不用说写数据了。

对于如何提高读取数据的效率，我们已经想到解决的方法了，那就是将一个数据集存储到多个硬盘里，然后并行读取。比如1T的数据，我们平均100份存储到100个1TB硬盘上，同时读取，那么读取完整个数据集的时间用不上两分钟。至于硬盘剩下的99%的容量，我们可以用来存储其他的数据集，这样就不会产生浪费。解决读取效率问题的同时，我们也解决了大数据的存储问题。

但是，我们同时对多个硬盘进行读/写操作时，又有了