Hadoop在linux下的安装。以及HDFS相关的概念

Zebra项目中存在的问题(引出hadoop

没有考虑到海量数据的存储和管理问题

没有考虑到节点的故障问题,比如通过心跳机制确保集群的高可用

只有一个合并节点(engine2),如果合并的任务量非常大,则会造成单点工作负荷大。

zebra项目中,有很多业务的处理思想可以提炼出来,提炼出计算框架。(如逻辑切块,位置追溯,key值的合并)。即没有用计算框架来处理业务,导致以后有新任务还会做重复繁琐的工作。

任务资源管理和调度。比如对每一个job任务进行cpu和内存的合理分配。比如yarn和mesos。

 

Hadoop的作者doug cutting以及hadoop的起源

Doug Cutting 是Lucence Nutch  和hadoop的创始人。

 

Nutch是搜索引擎,是基于Lucence实现的。Nutch相当于lucence的web应用,可以抓取网页,爬取数据。

 

2004年,cutting研发出来nutch,nuctch负责抓取数据,数据是非结构化的数据,而且是海量数 据。数据存储的数据是利用二维表来存储的,即行和列。此时,nutch面临的问题就是海量数 据的存储和管理问题。如果这个问题解决不了,就谈不上后续的利用算法做网页排名以及优化 检索速度,提高用户的搜索体验。

正好此时Google发表了两篇论文《Google FileSystem》《Google Mapreduce》

Google FileSystem》GFS是Google公司分布式文件系统,用于解决海量数据的存储问 题。

Google Mapreduce》MapReduce是Google运行在GFS上的计算框架。这个计算框架的 目的是便于不懂分布式编程的人员也可以将任务运行在分布式环境下。

Cutting根据《GFS》设计了HDFS,hadoop distributed filesystem 。Hadoop诞生的目 的,最开始为了解决nutch抓取海量数据的存储问题。在nutch0.8版本以前,hadoop是 nutch的子项目。在0.8版本,独立出来,单独称为一个项目。后来,Cutting 根据《Google Mapreduce》设计了基于HDFS的MapReduce计算框架。

2006年,cutting带着这Hadoop来到Yahoo,后来Yahoo把Hadoop贡献给Apache。现在是Apache的 顶级项目。

Hadoop 版本

Hadoop 1.0   HDFS +MapReduce

 

Hadoop 2.0   HDFS+ MapReduce +yarn(资源调度框架)。引入框架之后,不仅可以运行mapreduce一种框架,还可以运行其他流式框架Strom等。

Hadoop3.0在2016年9月12日发布 据说比当前spark快很多

 

 

资源调度框架

Yarn mesos都是apache的产品

 

 

Hadoop单机的安装

 待完善

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值