一.Hadoop的历史:
hadoop之父DougCutting
hadoop一开始只是ApacheLucene的子项目。
ApacheLucene
1.全球第一个开源的全文检索引擎工具包
2.完整的查询引擎和索引引擎
3.部分文本分析引擎
4.开发人员可在此基础上建立起完整的全文检索引擎。
Nutch
1.开源的基于Lucene的网页搜索引擎
2.加入网页抓取/解析等功能
3.类似于Google等商业搜索引擎
Goole的两篇重要论文
GoogleFile System
MapReduce:SimplifiedData Processing on Large Clusters
HadoopLOGO的名字由来:DougCutting家小孩儿为一直黄色大象玩具起得名字。
1.2002年 Nutch项目开始运行
2.2003年谷歌发表GFS论文
3.2004年 Doug根据GFS设计了NDFS
4.2005年 Nutch移植到新的框架,Hadoop早期版本在20个节点上运行
5.2006年1月 Doug加盟雅虎
6.2006年2月 ApacheHadoop项目启动
7.2008年 Hadoop赢得世界1TB数据排序冠军
8.2013年11月 Hadoop技术峰会召开,标志Hadoop进入2.0时代
二.创建本地Hadoop集群
1.操作系统的支持
a).Linux
b).Windows
–Cygwin
–hadoop-for-windows
2.JDK的支持
a).下载JDK
b).解压:sudotar -zxvf (jdk压缩包)
c).设置环境变量:sudovi /etc/profile
在文件末尾加入
exportJAVA_HOME=(jdk的工作路径)
exportPATH = PATH: JAVA_HOME/bin:$PATH:
d).hadoop版本
3.Hadoop安装:
a).下载安装:
b).设置环境:
设置环境变量
设置用户路径
修改配置文件
c).配置SSH免密码登录
三.创建托管的Hadoop集群
AmazonWeb Services—亚马逊云服务:
a).ElasticCompute Cloud (EC2)—弹性计算云
2006年8月25日发布
弹性云服务器
虚拟主机
多种操作系统
负载均衡
安全防护
按使用时长付费
b).SimpleStorage Service (S3)—简单存储服务
2006年3月14日发布
提供了一种简单的键值存储服务:用户可以通过网络界面/命令行/API接口创建对象,这些对象既可以是文本,也可以是图片/音频/视频等多媒体对象。
我们把S3存储数据的容器称之为“桶”,每个桶都有唯一的标识符,而且桶中的对象都是唯一命名的
S3支持的单文件最大为5TB
按存储量付费
c).ElasticMapReduce (EMR)—弹性mapReduce
2009年4月2日发布
支持多种接口:网页控制台/命令行/API
集群配置简单
支持多种开发语言:Java/Python/Ruby等
经典模式
创建托管的Hadoop集群操作示例:
a.创建AWS账号
b.注册必须的服务
c.登录AWS管理控制台
d.创建桶
e.创建任务流