大数据技术原理与应用(二):大数据处理架构Hadoop

Hadoop简介

Hadoop是Apache软件基金会旗下开源软件,是一个开源分布式计算平台

Hadoop屏蔽了大数据底层实现的细节,只需要按照它提供的更高层的接口,做一些简单的编程操作,后台所有的工作全部由整个系统自己实现。

Hadoop平台是利用java平台来开发的。但是Hadoop可以支持多种语言

Hadoop两大核心——HDFS(分布式文件系统)+MapReduce(分布式并行框架)

Hadoop特性

  1. 高可靠性                                                                                                                                                                                多台机器构成集群,部分机器发生故障,剩余机器可以继续对外提供服务
  2. 高效性                                                                                                                                                                                   高效处理海量分布式数据集
  3. 高可拓展性                                                                                                                                                                             可以不断向Hadoop集群中添加节点

 

Hadoop的不同版本

把MapReduce框架所承担的任务给分解了,把它对资源的调度管理功能单独给划出来,不让它再去管资源调度了,只需要负责数据处理。将相关的负责资源处理的模块全部单独抽出来,做成一个新的框架,称为YARN

2.0版本的HDFS多了NN Federation和HA

 

 

Hadoop项目结构

Hadoop由最开始两大核心发展起来,现在已经衍生出了非常多的子项目,形成了非常丰富的生态圈。

华为对Hadoop开源的贡献是排在谷歌微软前面的

 

Hadoop的安装

Hadoop默认模式为非分布式模式(本地模式),无需进行其他配置即可运行

Hadoop3.x的端口已经变了

 

Hadoop集群的部署和使用

整个Hadoop集群的主要节点有几类:

  • NameNode,名称节点
  • DataNode,数据节点

NameNode像一个目录服务器一样,某个应用要取数据的时候,首先访问NameNode,去获得关于应用要访问的数据被放在了哪些DataNode上面,再到具体的DataNode上面去取数据

NameNode里面很多元数据都是直接保存在内存当中的

SecondNameNode是NameNode的备份


MapRecude两大核心组件:

  • JobTracker
  • TaskTracker

在做MapReduce应用程序开发时,每次都是以一个MapReduce作业的形式去完成具体的计算任务。

JobTracker负责对整个作业进行管理,它会把用户的一个大的作业拆分成很多小作业,分发到不同机器上去执行。

不同机器上面部署了TaskTracker,每一个TaskTracker负责跟踪执行分配给自己的那一小部分作业

大集群NameNode和JobTracker一般分开部署,小集群可以部署在一台机器上

如果是较大的集群SecondNameNode要找单独一个另外的服务器来存放

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值