大数据架构之Hadoop生态圈

最新推荐文章于 2022-12-20 09:03:45 发布

TT15751097576

最新推荐文章于 2022-12-20 09:03:45 发布

阅读量1.1k

点赞数 1

文章标签：大数据架构之Hadoop生态圈

本文链接：https://blog.csdn.net/tt15751097576/article/details/101034357

版权

本文详细介绍了Hadoop大数据架构的集群规划，包括管理节点、工具节点和工作节点的角色分配。接着，文章阐述了Hadoop生态圈的核心组件HDFS、YARN和MapReduce，以及Hadoop的其他关键组件，如Flume、Sqoop、Zookeeper和HBase等，提供了对大数据处理和存储的全面理解。此外，还探讨了Zookeeper数据结构的特点及其在分布式协作服务中的作用。

摘要由CSDN通过智能技术生成

第一章：集群规划

测试开发集群（逻辑划分）：1台管理节点理解点+1台工具节点/1台边缘节点——N太工作节点

$[外链图片转存失败(img-q9J315er-1568894490076)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568885129967.png)]$

可在Cloudera Manager界面查看，端口号：7180

1台机器上部署管理节点，通常包括以下叫角色：

NN：NameNode（HDFS）；

SHS：Spark History Server（Spark）；

RM：Reduce Manager（YARN）；

JHS：jobHistoryServer

ZK：Zookeeper；

KM：kudu Master

ISS：Impala Statestore

1台机器部署工具节点/边缘节点，工具节点通常包括的角色：、

CM：Cloudera Manager

JN：journalNode

CMS：Cloudera Management service

ICS：Impala Catelog service

NMS：NavigatorMetadata

HMS：Hive Metadata

NAS：Navigator Audit Srver

ZK, Fluem, Sqoop, Hue, HttpFS

边缘节点通常包括的角色：

GW: Gateway configuration

Hue, Sqoop, Flume, HiveServer

工作节点通常包括的角色：

Impala Daemon, NodeManager, DataNode, Kudu Tablet Server

第二章：Hadoop生态圈

Hadoop生态圈中，HDFS提供文件存储，YARN提供资源管理，在基础上，进行各种处理，包括mapreduce，Tez，Sprak，Storm等计算。

$[外链图片转存失败(img-w5we3jf6-1568894490081)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568885967045.png)]$

第三章：Hadoop三大核心组件

Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但是物理上常在一起。

（1）HDFS集群：负责海量数据的存储

（2）YARN集群：负责海量数据运算时的资源调度

（3）Map Reduce：它其实是一个应用程序开发包 。（最重要）

（1）HDFS（Hadoop Distributed File System）

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序的数据访问功能，适合大型数据集的应用程序，它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群中不同物理机器上。

快速理解：

1）HDF的文件被分成块进行存储，默认为64M，块是文件存储处理的逻辑单元。

2）HDFS有两个节点，Name Node和DATa Node

3）Name Node是管理节点，存储文件元数据。文件与数据的映射表;数据块与数据节点的映射表

4）DATa Node是HDFS的工作节点，存储数据库。

5）每个数据库3个副本，分布在两个机架内的三个节点。

6）DATa Node定期向Name Node发送消息。

7）二级Name Node定期同步元数据映射文件和修改日志，作为备胎。

特点：

1）数据冗余，硬件容错

2）流式事务数据访问

3）存储大文件

应用：

1）适合数据批量读写，吞吐量高。不适合交换式应用，低延迟很难满足。

2）适合一次性写入多次读取，顺序读写。不支持多用户并发写入相同文件。

常用操作指令：

常用操作指令：

#初始格式化

hadoop namenode -format

#打印Hdfs当前文件夹

hadoop fs -ls/

#创建并上传文件操作

hadoop fs -mkdir input

hadoop fs -put hadoop_env.sh input /

#查看具体文件

hadoop fs -cat input/hadoop_env.sh

#下载文件

hadoop fs -get input/hadoop_env.sh hadoop_env2.sh

#查看文件系统所有文件

hadoop dfadmin -report

$[外链图片转存失败(img-TxZp7HAG-1568894490082)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568889632449.png)]$