前言
研究生阶段将要接触大数据和深度学习的知识,在网上找的教程大多一上来就是一堆名词又解释不清楚,对新手相当不友好,在慕课网看到一个教程,利用博客记录下自己学习的过程。
hadoop介绍
关于hadoop 最好的介绍莫过于官网的文档,hadoop的官网如下,
http://hadoop.apache.org
我们一句一句来看看hadoop官网是怎么介绍的。
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
这段话说hadoop是一个开源的软件,并且是可靠性的(reliable)、可扩展性的(scalable)、分布式计算的(distributed computing)软件。这三个特点我们后面会进行详细解释。
The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather t