大数据架构之Hadoop生态圈

本文详细介绍了Hadoop大数据架构的集群规划,包括管理节点、工具节点和工作节点的角色分配。接着,文章阐述了Hadoop生态圈的核心组件HDFS、YARN和MapReduce,以及Hadoop的其他关键组件,如Flume、Sqoop、Zookeeper和HBase等,提供了对大数据处理和存储的全面理解。此外,还探讨了Zookeeper数据结构的特点及其在分布式协作服务中的作用。
摘要由CSDN通过智能技术生成

第一章:集群规划

测试开发集群(逻辑划分):1台管理节点理解点+1台工具节点/1台边缘节点——N太工作节点

[外链图片转存失败(img-q9J315er-1568894490076)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568885129967.png)]

可在Cloudera Manager界面查看,端口号:7180

1台机器上部署管理节点,通常包括以下叫角色:
NN:NameNode(HDFS);
SHS:Spark History Server(Spark);
RM:Reduce Manager(YARN);
JHS:jobHistoryServer
ZK:Zookeeper;
KM:kudu Master
ISS:Impala Statestore
1台机器部署工具节点/边缘节点,工具节点通常包括的角色:、
CM:Cloudera Manager
JN:journalNode
CMS:Cloudera Management service
ICS:Impala Catelog service
NMS:NavigatorMetadata
HMS:Hive Metadata
NAS:Navigator Audit Srver
ZK, Fluem, Sqoop, Hue, HttpFS
边缘节点通常包括的角色:
GW: Gateway configuration
Hue, Sqoop, Flume, HiveServer
工作节点通常包括的角色:
Impala Daemon, NodeManager, DataNode, Kudu Tablet Server

第二章:Hadoop生态圈

Hadoop生态圈中,HDFS提供文件存储,YARN提供资源管理,在基础上,进行各种处理,包括mapreduce,Tez,Sprak,Storm等计算。

[外链图片转存失败(img-w5we3jf6-1568894490081)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568885967045.png)]

第三章:Hadoop三大核心组件

Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但是物理上常在一起。

(1)HDFS集群:负责海量数据的存储

(2)YARN集群:负责海量数据运算时的资源调度

(3)Map Reduce:它其实是一个应用程序开发包(最重要)

(1)HDFS(Hadoop Distributed File System)

HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序的数据访问功能,适合大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群中不同物理机器上。

快速理解:

​ 1)HDF的文件被分成块进行存储,默认为64M,块是文件存储处理的逻辑单元。

​ 2)HDFS有两个节点,Name Node和DATa Node

​ 3)Name Node是管理节点,存储文件元数据。文件与数据的映射表;数据块与数据节点的映射表

​ 4)DATa Node是HDFS的工作节点,存储数据库。

​ 5)每个数据库3个副本,分布在两个机架内的三个节点。

​ 6)DATa Node定期向Name Node发送消息。

​ 7)二级Name Node定期同步元数据映射文件和修改日志,作为备胎。

特点:

​ 1)数据冗余,硬件容错

​ 2)流式事务数据访问

​ 3)存储大文件

应用:

​ 1)适合数据批量读写,吞吐量高。不适合交换式应用,低延迟很难满足。

​ 2)适合一次性写入多次读取,顺序读写。不支持多用户并发写入相同文件。

常用操作指令:
常用操作指令:

#初始格式化

hadoop namenode -format

#打印Hdfs当前文件夹

hadoop fs -ls/

#创建并上传文件操作

hadoop fs -mkdir input

hadoop fs -put hadoop_env.sh input /

#查看具体文件

hadoop fs -cat input/hadoop_env.sh

#下载文件

hadoop fs -get input/hadoop_env.sh hadoop_env2.sh

#查看文件系统所有文件

hadoop dfadmin -report

[外链图片转存失败(img-TxZp7HAG-1568894490082)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568889632449.png)]

[外链图片转存失败(img-UV3rlksQ-1568894490084)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568889648187.png)]

[外链图片转存失败(img-weCA3coE-1568894490085)(C:\Users\tt\AppData\Roaming\Typora\typora-user-images\1568889662891.png)]

(2)YARN(Yet Another Redu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值