这是我自己在学习大数据时的笔记总结,适合可爱的小白们作为扫盲了解,所以会出现很多非专业用语,希望各位专业人士暂时忘掉自己的强迫症,如实在不能忍受,那就闭着眼睛看吧。可能出现一些错误的认识,还希望大家能够及时指出来,共同进步。
什么是Hadoop
Hadoop是Apache软件基金会发行的可靠的、可扩展的、分布式计算的开源软件。
Apache Hadoop软件库是一个允许大规模数据集在跨计算机集群模式下使用简单编程模型的框架。它被设计为可以从一台服务器扩展到上千台服务器,每台服务器提供本地的计算与存储功能。而不是依靠提高硬件来提高可用性。
以上这些都是Hadoop官网对他的解释,现在我说一下我认为的通俗的解释。
打个比方,随着科技的发展,我们遇到的问题很简单:在硬盘存储容量不断提升的同时,访问速度却没有于是俱进。现在老板需要你解决一个需要非常大计算能力才能解决的问题,那么你现有的服务器不能负荷,所以需要购买更大的服务器,渐渐购买超大服务器的成本已经超过项目本身的价值,那么我们怎么办?Hadoop这个哥们儿就出现了,他提出了分布式存储计算的观点,也就是把我现有的廉价的服务器组成一个“群”,每台服务器提供自己的内存,作为“群”内存的一部分,将巨大的数据分散放到单独的服务器内存,这样就会大大降低超大服务器的成本。
这里提到的“分散存储”、“分步计算”是Hadoop十分重要的理念,那么他们具体是怎么实现的,下篇具体说明。