HDFS完全分布式集群搭建与配置及常见问题总结

最新推荐文章于 2024-04-27 17:41:50 发布

m0_68434051

最新推荐文章于 2024-04-27 17:41:50 发布

阅读量683

点赞数 3

文章标签： hdfs 分布式 hadoop

本文链接：https://blog.csdn.net/m0_68434051/article/details/126883061

版权

本文详细介绍了HDFS的概述、架构、优缺点，以及如何在Linux虚拟机上搭建完全分布式集群。从网络配置、主机名设置到配置HDFS相关文件，包括core-site.xml、hdfs-site.xml等，再到启动集群和文件测试，最后总结了Hadoop集群的启停方式，是学习HDFS入门的实用教程。

摘要由CSDN通过智能技术生成

导学：

如果想要学习HDFS首先我们要对HDFS有所了解。下面就简单介绍下HDFS。

学习HDFS首当其冲的是需要一个可以运行的HDFS集群，这是最基本的需求也是学习HDFS的关键。

然而搭建一个HDFS集群实则上是需要准备多台Linux服务器的，但是如果购买真正的计算机来安装Linux系统作为服务器，在学习的阶段很显然成本比较高不适合初学入门的我们，这并不是唯一的解决方案，我们还可以通过虚拟机技术，可以快速获得多台自己的虚拟机Linux机器，并且我们可以在自己的虚拟机上部署我们自己需要的HDFS集群。

这种方法作为入门初学者来说最适合不过了，为我们接下来的学习奠定了物质基础。

HDFS 概述

随着数据量越来越大，在一个操作系统存不下所有的数据，就需要分配到更多的操作系统管理的磁盘中。但是不方便管理和维护，所以需要一种系统来管理多台机器上的文件，这种系统就是分布式文件管理系统。HDFS就是一种分布式文件管理系统。

HDFS（Hadoop Distributed File System）：Hadoop分布式文件管理系统，用于存储文件，通过目录树来定位文件。有很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入、多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。（比如数仓）

优点
高容错性：
数据自动保存多个副本。通过增加副本的形式，提高容错性；

某一个副本丢失以后，它可以自动恢复。比如有10台机器，文件副本数量为默认的3个副本，当某一台机器宕机时，hdfs会自动将这台机器上的文件副本恢复到下一台机器上；
适合处理大数据：
能够处理数据规模达到GB、TB、甚至PB级别的数据；

能够处理百万规模以上的文件数量；

可以构建在廉价机器上，通过多副本机制提高可靠性

缺点：
不适合低延时数据访问，比如毫秒级的存储数据是做不到的（适合高吞吐量的批量数据读写，不适合交互式应用）
无法高效的对大量小文件进行存储。

存储大量小文件的话，会占用NameNode大量的内存来存储文件目录和块信息，但是NameNode的内存是有限的；

默认情况下，每个数据块大小是128M，即该数据块上最多能存128M。当有文件需要存储时，hdfs会将该文件按128M拆分成若干个文件块，分别存储在不同数据块上。如果文件大小只有1kb，那么这个128M的数据块中就可以存储多个文件块。

不管占用多少个数据块，一个文件拆分出的每个文件块都需要占用NameNode中150字节。如果存储了过多的小文件，就可能造成数据块还没存满、NameNode已经因为文件块过多导致无法存储了。比如 128G的NameNode最多只能存储9亿个小文件（128GB / 150 Byte = 9亿），小文件存储的寻址时间会超过读取文件本身的时间，违反了 HDFS 的设计目标；
不支持并发写入、文件随机修改。

一个文件只能有一个线程进行写入，不允许多线程同时写；

文件写入后，后续只能进行数据追加（append），不支持文件的随机修改（update）；

HDFS架构

HDFS架构图：

HDFS架构图
NameNode：简称NN，就是Master，是一个管理者

管理HDFS的名称空间，存放文件元数据（文件名、目录结构、文件属性等）
配置副本策略
管理数据块（block）映射信息（文件与数据块的映射、数据块与数据节点的映射）
处理客户端读写请求
DataNode：就是Slave。根据NameNode的指令执行实际的操作
存储实际的数据块
执行数据块的读/写操作
Secondary NameNode：简称2NN。不是NameNode的热备，当NameNode宕机时，并不能马上替换NameNode提供服务
服务NameNode，分担其工作量，比如定期合并 Fsimage 和 Edits，并推送给NameNode
在紧急情况下，可辅助恢复NameNode
上面的Hadoop官方绘制的HDFS架构图中并没有2NN，因为在企业中一般会将NameNode搭建成高可用，而不是使用2NN。
Client：客户端
文件切分。文件上传 HDFS 时，Client将文件切分成一个个的Block然后进行上传
与NameNode交互，获取文件的位置信息
与DataNode交互，读取或写入数据
Client提供一些命令来管理HDFS，比如NameNode格式化
Client可以通过一些命令来访问HDFS，比如对HDFS进行增删改查操作

HDFS特性

主从架构：
HDFS 集群是标准的 master/slave 主从架构集群

一般一个HDFS集群是由一个 NameNode 和一定数量的 DataNode组成
NameNode 是 HDFS主节点，DataNode是 HDFS 从节点，两种角色各司其职，共同协调完成分布式的文件存储服务

分块存储：

HDFS中的文件在物理上是分块存储（block）的，默认大小是128M，不足128M则本身就是一块
块的大小可以通过配置参数来规定，参数位于 hdfs-site.xml中 dfs.blocksize

副本机制：

文件的所有block都会有副本，副本数量可以在文件创建时指定，也可以在之后通过命令改变
副本数由参数 dfs.replication 控制，默认值是 3。也就是除了本身外，还会额外再复制2份。

元数据管理。

在HDFS中，NameNode管理的元数据分为两类：

文件自身属性信息：文件名称、权限、修改时间、文件大小、复制因子、数据块大小
文件块位置映射信息：记录文件块和DataNode之间的映射信息，即哪个块位于哪个节点上

namespace：

HDFS支持传统的层次型文件组织结构。用户可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和Linux等大多数现有的文件
系统类似
NameNode负责维护文件系统的namespace名称空间，任何堆文件系统名称空间或属性的修改都将被namenode记录下来
HDFS 会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件。例如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

数据块存储：

文件的各个block具体存储管理由DataNode节点承担
每一个block都可以在多个datanode上存储

准备工作

网络配置

网络配置
在这里插入图片描述

主机名配置

修改每台机器的主机名（hostname）

– 把原本值删除，添加对应机器的主机名

vi /etc/hostname

在这里插入图片描述
修改每台机器的/etc/hosts文件

– 三台机器都配置一样配置

vi /etc/hosts
192.168.67.110 node01 node01.hadoop.com
192.168.67.120 node02 node02.hadoop.com
192.168.67.130 node03 node03.hadoop.com

在这里插入图片描述
–重启 reboot

关闭防火墙和SELinux

关闭防火墙

• 关闭防火墙并设置开机不启动

systemctl stop firewalld
systemctl disable firewalld
systemctl status firewalld

在这里插入图片描述
防火墙说明

Centos7 中默认将原来的防火墙 iptables 升级为了 firewalld。

常用指令:

安装 firewalld

root 执行 # yum install firewalld firewall-config

yum install firewalld firewall-config

运行、停止、禁用 firewalld

查看状态:# systemctl status firewalld 或者 firewall-cmd --state

systemctl status firewalld
firewall-cmd --state

临时启动:# systemctl start firewalld

systemctl start firewalld

永久开机自启动:# systemctl enable firewalld

systemctl enable firewalld

永久开机自启动:# systemctl enable firewalld

systemctl enable firewalld

临时禁用:# systemctl stop firewalld

systemctl stop firewalld

停止，开机不启动:# systemctl disable firewalld

systemctl disable firewalld

在这里插入图片描述

firewalld 规则添加

查看所有打开的端口

 firewall-cmd --zone=public --list

最低0.47元/天解锁文章

m0_68434051

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
HDFS完全分布式集群搭建与配置及常见问题总结

HDFS完全分布式集群搭建与配置
复制链接

扫一扫

HDFS完全分布式集群搭建与配置及常见问题总结

HDFS完全分布式集群搭建与配置及常见问题总结

导学：

HDFS 概述

HDFS架构

HDFS架构图：

HDFS特性

准备工作

网络配置

主机名配置

“相关推荐”对你有帮助么？