一、Hadoop概述
Hadoop是Google的集群系统的开源实现。
- Google的集群系统:GFS、MapReduce、BigTable
- Hadoop的集群系统:HDFS、MapReduce、HBase
Hadoop的设计初衷是为了解决Nutch海量数据存储和处理需求,可以解决大数据场景下的海量数据的存储和处理问题。
传统数据和大数据的区别:
①.传统数据
- GB、TB级别的数据
- 数据增长不快
- 主要为结构化的数据
- 统计和报表
②.大数据
- TB、PB级别的数据
- 数据持续的高速增长
- 半结构化、非结构化的数据
用于数据挖掘和预测性分析
大数据是对海量数据的获取、存储、聚合和管理这些数据以及对这些数据进行深度分析和预测的新技术和新能力。
大数据定义:
定义1:所涉及的数据量规模巨大到无法通过人工,在合理时间内截取管理处理并整理成为人类所能解读的信息。(Dan Kusnetzky,What is “Big Data”?)
定义2:不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。(维克托 ∙ 迈尔-舍恩伯格、肯尼斯 ∙ 库克耶,“大数据时代”)
定义3:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(“大数据”(Big Data)研究机构Gartner)
注:hadoop名字的起源:
Doug Cutting如此解释Hadoop的得名:“这个名字是我的孩子给一头吃饱了的棕黄色的大象命名的。我的命名标准就是简短、容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子在这方面是高手,Google就是由孩子命名的。”
Hadoop组成:HDFS、MapReduce、Yarn
二、Hadoop版本和下载安装
1.下载
下载地址:http://hadoop.apache.org/releases.html
Apache Hadoop的成熟版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。
第一代Hadoop分为三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变为稳定版本,而0.21.x和0.22.x则添加了NameNode和HA等重大特性。