hadoop大数据平台之一——基础篇

基础

官网:http://hadoop.apache.org/

1、学习hadoop开发学习参考书目:

2、预备知识

1)Linux常用命令

2)java编程基础

Hadoop前世今生:Hadoop源于google三大论文,Google大数据研发三个:MapReduce、BigTable、GFS(做个中文版下载源:http://dl.iteye.com/topics/download/38db9a29-3e17-3dce-bc93-df9286081126),但是Google没有开源,所以开发了Hadoop,这个是基于google大数据技术的开源实现。

3、Hadoop功能与优势

hadoop是什么:hadoop是一个开源的+分布式存储+分布式计算平台。

包括:

HDFS 分布式文件系统

MapReduce 并行处理,任务分解调度。

4、Hadoop应用

facebook、yahoo、百度、Tencent、小米、Intel等等。


Hadoop版本

hadoop v1.x, v2.x 。其中1.2是稳定版本,2.x不稳定。

包括模块

1、HDFS

2、MapReduce

3、HIVE

4、HBase

5、zookeeper

一、HDFS设计架构

相关概念:

1)分块进行,默认块大小64MB。

2)NameNode和DataNode

Namenode和Datanode   
           HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服
务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内
部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。

例1:hadoop读取文件的流程。

1、客户端请求某一个文件;

2、NameNode接收到请求返回元数据,文件各个分块的地址,Block A 在哪一个DataNode

3、知道了各个分块文件的地址,读取各个Block

注:一个文件默认有3个备份,分布在2个机架上。例如Block A 有2块在机架1上,另外一个在机架2上面,一个机架坏了,另外一个机架上的数据可用。


例2: hadoop写文件流程。

1、客户端发送写文件的请求

2、NameNode找到有哪些DataNode为空,返回到客户端,

3、客户端知道这个文件应该写入到哪些DataNode了,把文件写入

4、流水线复制到另外一个机架

5、更新元数据


HDFS特点:

适用:1、大数据批量读写,吞吐量高;2、一次写入,多次读取,顺序读写;

不适用:1、交互式应用,低延迟很难满足;2、不支持多用户并发写相同文件。


二、MapReduce 并行计算框架

原理:分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。

几个概念:

1、Job & Task  一个job拆分成多个task:maptask和reducetask

2、JobTracker 作用1:作业调度; 作用2:分配任务,监控任务执行进度; 作用3:监控TaskTracker的状态

3、TaskTracker 作用1:执行任务; 作用2:向JobTracker汇报任务状态


参考:

http://bbs.chinaunix.net/thread-2025059-1-1.html


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

伍六七AI编程

你猜你给我1分我要不要

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值