Hadoop历史和简介

最新推荐文章于 2024-08-08 10:34:27 发布

SunmonDong

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量5.4k

点赞数 2

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s646575997/article/details/51802094

版权

hadoop 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

一.Hadoop的历史：

hadoop之父DougCutting

hadoop一开始只是ApacheLucene的子项目。

ApacheLucene

1.全球第一个开源的全文检索引擎工具包

2.完整的查询引擎和索引引擎

3.部分文本分析引擎

4.开发人员可在此基础上建立起完整的全文检索引擎。

Nutch

1.开源的基于Lucene的网页搜索引擎

2.加入网页抓取/解析等功能

3.类似于Google等商业搜索引擎

Goole的两篇重要论文

GoogleFile System

MapReduce：SimplifiedData Processing on Large Clusters

HadoopLOGO的名字由来：DougCutting 家小孩儿为一直黄色大象玩具起得名字。

1.2002年 Nutch项目开始运行

2.2003年谷歌发表GFS论文

3.2004年 Doug根据GFS设计了NDFS

4.2005年 Nutch移植到新的框架，Hadoop早期版本在20个节点上运行

5.2006年1月 Doug加盟雅虎

6.2006年2月 ApacheHadoop项目启动

7.2008年 Hadoop赢得世界1TB数据排序冠军

8.2013年11月 Hadoop技术峰会召开，标志Hadoop进入2.0时代

二.创建本地Hadoop集群

1.操作系统的支持

a).Linux

b).Windows

--Cygwin

--hadoop-for-windows

2.JDK的支持

a).下载JDK

b).解压：sudotar -zxvf （jdk压缩包）

c).设置环境变量：sudovi /etc/profile

在文件末尾加入

exportJAVA_HOME=（jdk的工作路径）

exportPATH = $PATH:$JAVA_HOME/bin:$PATH:

d).hadoop版本

3.Hadoop安装：

a).下载安装：

b).设置环境：

设置环境变量

设置用户路径

修改配置文件

c).配置SSH免密码登录

三.创建托管的Hadoop集群

AmazonWeb Services---亚马逊云服务：

a).ElasticCompute Cloud (EC2)---弹性计算云

2006年8月25日发布

弹性云服务器

虚拟主机

多种操作系统

负载均衡

安全防护

按使用时长付费

b).SimpleStorage Service (S3)---简单存储服务

2006年3月14日发布

提供了一种简单的键值存储服务：用户可以通过网络界面/命令行/API接口创建对象，这些对象既可以是文本，也可以是图片/音频/视频等多媒体对象。

我们把S3存储数据的容器称之为“桶”，每个桶都有唯一的标识符，而且桶中的对象都是唯一命名的

S3支持的单文件最大为5TB

按存储量付费

c).ElasticMapReduce (EMR)---弹性mapReduce

2009年4月2日发布

支持多种接口：网页控制台/命令行/API

集群配置简单

支持多种开发语言：Java/Python/Ruby等

经典模式

创建托管的Hadoop集群操作示例：

a.创建AWS账号

b.注册必须的服务

c.登录AWS管理控制台

d.创建桶

e.创建任务流

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SunmonDong CSDN认证博客专家 CSDN认证企业博客

码龄9年

56: 原创

18万+: 周排名

120万+: 总排名

37万+: 访问

: 等级

3752: 积分

57: 粉丝

161: 获赞

10: 评论

183: 收藏

私信

关注

热门文章

分类专栏

最新评论

Git暂存区原理
小傻瓜的哥哥: 我感觉博主的意思，就是暂存区(index)文件仅存放指向(.git/objects)的指针，并不会存放工作区通过 add . 添加的文件，所有的修改文件也都会在 (.git/objects) 目录下创建一个新的对象，并更改 (.git/index) 中暂存区的指针
Hive中自定义函数的实现
守护李知恩: 并不能实现
解释器和编译器区别和联系
细卷子: Java源程序是先编译成字节码，然后再通过虚拟机对字节码进行解释执行的。应该是编译和解释的结合才对。(´▽｀)
ssh: connect to host slave2 port 22: Connection refused
@xz: 集群里的吗
Git暂存区原理
E1sewhere: 请问一下博主,暂存区(index)是只存放索引用来指向对象库的对象,暂存区并不存放我们工作区修改的文件是嘛? 所有的修改文件(树对象)都是存在git的对象库中?

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。