hadoop入门简介

最新推荐文章于 2023-12-27 18:13:41 发布

北慕辰

最新推荐文章于 2023-12-27 18:13:41 发布

阅读量1.3k

点赞数 4

分类专栏： BigData hadoop 文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/dazuo_001/article/details/117195482

版权

BigData 同时被 2 个专栏收录

26 篇文章 10 订阅

订阅专栏

hadoop

9 篇文章 3 订阅

订阅专栏

1.什么是hadoop ？

概述：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

背景：作者Doug Cutting 受Google三篇论文的启发，开发了hadoop。

2.hadoop组件的介绍（三大组件）

hdfs：是一个分布式存储框架，适合海量数据存储
mapreduce：是一个分布式计算框架，适合海量数据计算
yarn：是一个资源调度平台，负责给计算框架分配计算资源

在这里插入图片描述

3.hadoop的特点

扩容能力强(Scalable)：能可靠(reliably)地存储和处理PB级别的数据。若数据量更大，存储不了,只要再增加节点就可以了。
成本低廉(Economical):可以通过普通机器组成的服务器集群来分发以及处理数据.这些服务器集群可达数千个节点。
高效率性(Efficient):通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速
可靠性(Reliable):hadoop能够自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务.

4.什么是分布式存储?

在分布式存储系统中，分散在不同节点中的数据可能属于同一个文件。
为了组织众多的文件，把文件可以放到不同的文件夹中，文件夹可以一级一级的包含。我们把这种组织形式称为命名空间（namespace）。命名空间管理着整个服务器集群中的所有文件。
集群中不同的节点承担不同的职责。
1.负责命名空间职责的节点称为主节点（master node）
2.负责存储真实数据职责的节点称为从节点（slave node）。
3.主节点负责管理文件系统的文件结构，从节点负责存储真实的数据，称为主从式结构（master-slaves）。
4.用户操作时，应该先和主节点打交道，查询数据在哪些从节点上存储，然后再到从节点读取。
5.在主节点上，为了加快用户访问的速度，会把整个命名空间信息都放在内存中，当存储的文件越多时，那么主节点就需要越多的内存空间。
6.在从节点存储数据时，有的原始数据文件可能很大，有的可能很小，大小不一的文件不容易管理，那么可以抽象出一个独立的存储文件单位，称为块（block）。
7.数据存放在集群中，可能因为网络原因或者节点硬件原因造成访问失败，最好采用副本（replication）机制，把数据同时备份到多台节点中，这样数据就安全了，数据丢失或者访问失败的概率就小了。

5.hdfs架构的分析介绍

hdfs概述：负责数据的分布式存储
hdfs的主从结构：
      主节点，最多可以有2个：namenode
      从节点，有多个：datanode
namenode主要负责：
      接收用户操作请求，是用户操作的入口
      维护文件系统的目录结构，称作命名空间
datanode的职责：
          存储数据

6.mapreduce架构的分析介绍

Mapreduce的概述：依赖磁盘io的批处理计算模型
Mapreduce的主从结构：
     主节点，只有一个: MRAppMaster
     从节点，就是具体的task
MRAppMaster主要负责：
1.接收客户端提交的计算任务
2.把计算任务分给NodeManager的Container中执行，即任务调度
     （1）  Container是YARN中资源的抽象，它封装了某个节点上一定量的资源（CPU和内存两类资源）
     （2）  Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster
     （3）  Container的运行是由ApplicationMaster向资源所在的NodeManager发起的
3.监控Container中Task的执行情况
Task职责：
      执行任务

7.yarn架构的分析介绍

yarn的概述：资源的调度和管理平台
yarn的主从结构：
       主节点，最多可以有2个：ResourceManager
       从节点，有很多个: NodeManager
ResourceManager主要负责：
           集群资源的分配与调度
           MapReduce、Storm、Spark等应用，必须实现ApplicationMaster接口，才能被RM管理
NodeManager职责：
        单节点资源的管理

8.hadoop环境的搭建

分两中： 1.hadoop伪分布式搭建
2.hadoop集群分布式搭建

北慕辰

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
2
评论
hadoop入门简介

1.什么是hadoop ？概述：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。背景：作者Doug Cutting 受Google三篇论文的启发，开发了hadoop。2.hadoop组件的介绍（三大组件）hdfs：是一个分布式存储框架，适合海量数据存储mapreduce：是一个分布式计算框架，适合海量数据计算yarn：是一个资源调度平台，负责给计算框架分配计算资源3.hadoop的特点扩容能力(Scalable)：能可靠(reliably)地存储和处理PB级别的数据。
复制链接

扫一扫