第一章:集群规划
测试开发集群(逻辑划分):1台管理节点理解点+1台工具节点/1台边缘节点——N太工作节点
可在Cloudera Manager界面查看,端口号:7180
1台机器上部署管理节点,通常包括以下叫角色:
NN:NameNode(HDFS);
SHS:Spark History Server(Spark);
RM:Reduce Manager(YARN);
JHS:jobHistoryServer
ZK:Zookeeper;
KM:kudu Master
ISS:Impala Statestore
1台机器部署工具节点/边缘节点,工具节点通常包括的角色:、
CM:Cloudera Manager
JN:journalNode
CMS:Cloudera Management service
ICS:Impala Catelog service
NMS:NavigatorMetadata
HMS:Hive Metadata
NAS:Navigator Audit Srver
ZK, Fluem, Sqoop, Hue, HttpFS
边缘节点通常包括的角色:
GW: Gateway configuration
Hue, Sqoop, Flume, HiveServer
工作节点通常包括的角色:
Impala Daemon, NodeManager, DataNode, Kudu Tablet Server
第二章:Hadoop生态圈
Hadoop生态圈中,HDFS提供文件存储,YARN提供资源管理,在基础上,进行各种处理,包括mapreduce,Tez,Sprak,Storm等计算。
第三章:Hadoop三大核心组件
Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但是物理上常在一起。
(1)HDFS集群:负责海量数据的存储
(2)YARN集群:负责海量数据运算时的资源调度
(3)Map Reduce:它其实是一个应用程序开发包 。(最重要)
(1)HDFS(Hadoop Distributed File System)
HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序的数据访问功能,适合大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群中不同物理机器上。
快速理解:
1)HDF的文件被分成块进行存储,默认为64M,块是文件存储处理的逻辑单元。
2)HDFS有两个节点,Name Node和DATa Node
3)Name Node是管理节点,存储文件元数据。文件与数据的映射表;数据块与数据节点的映射表
4)DATa Node是HDFS的工作节点,存储数据库。
5)每个数据库3个副本,分布在两个机架内的三个节点。
6)DATa Node定期向Name Node发送消息。
7)二级Name Node定期同步元数据映射文件和修改日志,作为备胎。
特点:
1)数据冗余,硬件容错
2)流式事务数据访问
3)存储大文件
应用:
1)适合数据批量读写,吞吐量高。不适合交换式应用,低延迟很难满足。
2)适合一次性写入多次读取,顺序读写。不支持多用户并发写入相同文件。
常用操作指令:
常用操作指令:
#初始格式化
hadoop namenode -format
#打印Hdfs当前文件夹
hadoop fs -ls/
#创建并上传文件操作
hadoop fs -mkdir input
hadoop fs -put hadoop_env.sh input /
#查看具体文件
hadoop fs -cat input/hadoop_env.sh
#下载文件
hadoop fs -get input/hadoop_env.sh hadoop_env2.sh
#查看文件系统所有文件
hadoop dfadmin -report