Hadoop+Hive学习笔记-6

最新推荐文章于 2024-06-22 19:52:27 发布

fwings260

最新推荐文章于 2024-06-22 19:52:27 发布

阅读量126

点赞数

文章标签： Hadoop

本文链接：https://blog.csdn.net/fwings260/article/details/100857037

版权

一些知识和问题

Hadoop的了解

查询了一些有关Hadoop的资料，进行了一些了解。

有关Hadoop的生态圈，牵扯东西太多，作为一个初学者根据自己的需要进行相关的了解再慢慢学习更多的东西吧

有关生态圈，转载一篇文章吧，下面是结合自己所学对Hadoop的一些了解
文章链接：[https://www.cnblogs.com/hanzhi/articles/8969109.html]

Hadoop概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构；
充分利用集群的威力进行高速运算和存储。
具有可靠、高效、可伸缩的特点。
在这里插入图片描述
Hadoop的核心主要是三个模块：存储、计算、资源调度
HDFS提供文件存储；
YARN提供资源管理；
mapreduce、Tez、Spark、Storm等进行计算。

HDFS

HDFS是块级别的分布式文件存储系统
系统主要分为三块：
NameNode：存储文件的元数据，比如文件名、文件目录结构、文件属性、以及每个文件的块列表和块所在的DataNode等，个人理解，这个就相当于是文件系统的目录和索引。
DataNode：在本地文件系统存储文件块数据，以及块数据的校验和。个人理解这块就是数据存放地，NameNode指向这里。
**Secondary NameNode：**用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。结合英文的字面意思，这个应该就是辅助NameNode的程序，定时自动更新备份NameNode。

YARN

YARN是分布式资源管理器
YARN在老版本的Hadoop是没有的，主要是为了解决原始Hadoop扩展性较差，不支持多计算框架而提出的。
YARN的主要作用是管理集群资源，根据不同Server处理任务所需的资源情况调配资源，让任务执行效率最大化。
同时YARN的出现让HDFS日益成为一个多租户环境，允许批量访问、实时访问、交互访问等等。

MapReduce

MapReduce是一种分布式计算模型，采用‘分而治之’的思想，用以进行大数据量的计算。
它屏蔽了分布式计算框架细节，将计算抽象成map和reduce两部分。
Map阶段：比如一个复杂的任务单台服务器无法胜任，就将这个复杂的任务分解成许多不同的小任务，分配到不同的服务器上执行，这里YARN会根据任务的需要调配资源给服务器，各个任务是同时进行的；
Reduce阶段：在所有的小任务执行完成之后，服务器会将所有的结果进行汇总，运算出初始的复杂任务的结果。