Hadoop基础入门详解

大熊超人

于 2021-03-22 20:27:12 发布

阅读量185

点赞数

文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/m0_46376464/article/details/115096391

版权

Hadoop基础入门详解

一、Hadoop的组成：

MapReduce（计算）——Hadoop1.x的时候也负责资源调度
Yarn（资源调度）——Hadoop1.x的时候没有，是hadoop的资源管理器，主要管理CPU和内存
HDFS（数据存储）
Common（辅助工具）

1、HDFS架构概述

NameNode(nn)：记录存储数据的位置—>存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode(dn)：具体存储数据，每一台服务器都是一个DataNode---->在本地系统存储文件块数据，以及块数据和校验和。
Secondary NameNode(2NN)：辅助NameNode工作---->每隔一段时间对NameNode元数据进行备份

2、YARN架构概述

ResourceManager(RM)：管理整个集群的资源（内存、cpu等），例如有三个NodeManager都是4G内存2个CPU，则RM供共管理12G内存和6个CPU
NodeManager（NM）：管理单个节点服务器资源，被ResourceManager管理
ApplicationMaster（AM）：管理单个任务运行
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘和网络等。

3、MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce阶段

1) Map阶段并行处理输入数据---->分发，Map阶段特点：每一个MapTask独立工作

2) Reduce阶段对Map结果进行汇总---->汇总

在这里插入图片描述

4、HDFS、YARN、MapReduce三者之间的关系

**客户端发送任务查找2020年AVI格式视频，ResourceManager(RM)找一个节点（NodeManager（NM）），开启一个Container，把任务（ApplicationMaster（AM））放在Container中，AM向RM申请需要多少资源，RM接收到请求查找相应资源，若能找到相应资源，就给AM开启对应的资源，而AM负责在资源中开启MapTask，此为MapReduce的Map阶段。Map阶段特点：每一个MapTask独立工作。MapTask独立工作，分别在对应节点（NM）中查找2020年AVI格式视频，不管找没找到，都会返回一个结果（Container），再由ReduceTask写到磁盘（DataNode）上，此阶段为Reduce阶段。写入磁盘时，DataNode负责写入操作，同时在NameNode上又进行了一个记账操作，2NN也负责记录一份数据，给NameNode做备份。 **

在这里插入图片描述

5、大数据技术生态体系

在这里插入图片描述

图中涉及的技术名词解释如下：
**1）Sqoop：**Sqoop 是一款开源的工具，主要用于在Hadoop、Hive 与传统的数据库（MySQL）
间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进
到Hadoop 的HDFS 中，也可以将HDFS 的数据导进到关系型数据库中。
**2）Flume：**Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，
Flume 支持在日志系统中定制各类数据发送方，用于收集数据；
**3）Kafka：**Kafka 是一种高吞吐量的分布式发布订阅消息系统；
**4）Spark：**Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop 上存储的大数
据进行计算。
**5）Flink：**Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
**6）Oozie：**Oozie 是一个管理Hadoop 作业（job）的工作流程调度管理系统。
**7）Hbase：**HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库，
它是一个适合于非结构化数据存储的数据库。
**8）Hive：**Hive 是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张
数据库表，并提供简单的SQL 查询功能，可以将SQL 语句转换为MapReduce 任务进行运
行。其优点是学习成本低，可以通过类SQL 语句快速实现简单的MapReduce 统计，不必开
发专门的MapReduce 应用，十分适合数据仓库的统计分析。
**9）ZooKeeper：**它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、
名字服务、分布式同步、组服务等。

6、推荐系统框架图

在这里插入图片描述

Nginx记录下购买商品过程，打入日志收集服务器中，由Flume采集对应的日志，采集完后传给kafka进行缓冲，缓冲后进行Spark Straming或Flink实时计算，计算完成后返回javaEE后台，返回时可以以两种形式存在：数据库形式或者文件形式存储。存储完成后，javaEE执行业务读取储存的数据，反馈给客户端展示页面。

大熊超人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础入门详解

Hadoop基础入门详解一、Hadoop的组成：MapReduce（计算）——Hadoop1.x的时候也负责资源调度Yarn（资源调度）——Hadoop1.x的时候没有，是hadoop的资源管理器，主要管理CPU和内存HDFS（数据存储）Common（辅助工具）1、HDFS架构概述NameNode(nn)：记录存储数据的位置—>存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。DataNode(dn
复制链接

扫一扫