HDFS理论及基本命令

最新推荐文章于 2024-09-17 08:00:00 发布

lanonola

最新推荐文章于 2024-09-17 08:00:00 发布

阅读量2.9k

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/lanonola/article/details/51887122

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第六章的代码及命令的部分本人还未验证，先记录，验证后如有变动再更新。

一、是什么

1.是一个易于扩展的分布式文件系统

2.可以运行在大量普通廉价机器上，提供容错机制

3.可以为大量用户提供性能不错的文件存取服务

二、优点

高容错性：数据自动保存多个副本，副本丢失后，自动恢复

适合批处理：移动计算而非数据，数据位置暴露给计算框架

适合大数据处理：GB、TB、甚至PB级数据；百万规模以上的文件数量；10K+节点规模

流式文件访问：一次性写入，多次读取；保证数据一致性

可构建在廉价机器上：通过多副本提高可靠性；提供了容错和恢复机制

三、缺点

低延迟数据访问：比如毫秒级；低延迟与高吞吐率；

不适合小文件存取：占用NameNode大量内存；寻道时间超过读取时间；

并发写入、文件随机修改：一个文件只能有一个写者；仅支持append

四、HDFS架构

主Master（只有一个）：可以用来管理HDFS的名称空间；管理数据块映射信息；配置副本策略；处理客户端读写请求

NameNode的热备：可以定期合并fsimage和fsedits，推送给NameNode；当Active NameNode出现故障时，快速切换为新的 Active NameNode。

Datanode：Slave（有多个）；存储实际的数据块；执行数据块读/写

Client：文件切分；与NameNode交互，获取文件位置信息；与DataNode交互，读取或者写入数据；管理HDFS；访问HDFS

HDFS数据块（block）：文件被切分成固定大小的数据块，默认数据块大小为64MB，可配置。若文件大小不到64MB，则单独存成一个block。数据库之所以如此之大，是为了保障数据传输时间超过寻道时间（高吞吐率）。一个文件在HDFS中存储时，会按大小被切分成若干个block，存储到不同节点上。默认情况下每个block有三个副本。

写流程：

读流程：

典型物理拓扑：

五、HDFS策略

Block副本放置策略：

副本1: 同Client的节点上；

副本2: 不同机架中的节点上；

副本3: 与第二个副本同一机架的另一个节点上

其他副本:随机挑选

可靠性策略：

常见的三种错误情况：文件损坏；网络或者机器失效；namenode挂掉

文件完整性：CRC32校验；用其他副本取代损坏文件

网络或者机器失效：利用Heartbeat，Datanode 定期向Namenode发heartbeat；

namenode挂掉：通过下面策略保障元数据信息，FSImage（文件系统镜像）、Editlog（操作日志）；多份存储；主备NameNode实时切换

HDFS不适合存储小文件：

1.元信息存储在NameNode内存中，一个节点的内存是有限的，存取大量小文件消耗大量的寻道时间，类比拷贝大量小文件与拷贝同等大小的一个大文件。

2.NameNode存储block数目是有限的，一个block元信息消耗大约150 byte内存， 存储1亿个block，大约需要20GB内存，如果一个文件大小为10K，则1亿个文件大小仅为1TB（但要消耗掉NameNode20GB内存）

六、HDFS访问方式

HDFS Shell命令；

HDFS Java API；

HDFS REST API；

HDFS Fuse：实现了fuse协议；

HDFS lib hdfs：C/C++访问接口；

HDFS 其他语言编程API；

使用thrift实现，支持C++、Python、php、C#等语言；

HDFS Shell命令

1.将本地文件上传到HDFS上

bin/hadoop fs -copyFromLocal /local/data /hdfs/data

2.删除文件/目录

bin/hadoop fs -rmr /hdfs/data

3.创建目录

bin/hadoop fs -mkdir /hdfs/data

4.一些脚本

在sbin目录下：start-all.sh；start-dfs.sh；start-yarn.sh；hadoop-deamon(s).sh；

单独启动某个服务：

hadoop-deamon.sh start namenode；

hadoop-deamons.sh start namenode（通过SSH登录到各个节点）；

5.文件管理命令fsck:

检查hdfs中文件的健康状况

查找缺失的块以及过少或过多副本的块

查看一个文件的所有数据块位置

删除损坏的数据块

6.数据块重分布

bin/start-balancer.sh -threshold <percentage of diskcapacity>

percentage of disk capacity:HDFS达到平衡状态的磁盘使用率偏差值,值越低各节点越平衡，但消耗时间也更长.

7.设置目录份额

限制一个目录最多使用磁盘空间:

bin/hadoop dfsadmin -setSpaceQuota 1t /user/username

bin/hadoop dfsadmin -setQuota 10000 /user/username

8.增加/移除节点

加入新的datanode:

步骤1：将已存在datanode上的安装包（包括配置文件等）拷贝到新datanode上；

步骤2：启动新datanode： sbin/hadoop-deamon.sh start datanode

移除旧datanode

步骤1：将datanode加入黑名单，并更新黑名单，在NameNode上，将datanode的host或者ip加入配置选项dfs.hosts.exclude指定的文件中

步骤2：移除datanode: bin/hadoopdfsadmin -refreshNodes

HDFS Java API介绍

Configuration类：该类的对象封装了配置信息，这些配置信息来自core-*.xml；

FileSystem类：文件系统类，可使用该类的方法对文件/目录进行操作。一般通过FileSystem的静态方法get获得一个文件系统对象；

FSDataInputStream和FSDataOutputStream类： HDFS中的输入输出流。分别通过FileSystem的open方法和create方法获得。

以上类均来自java包：org.apache.hadoop.fs

如：将本地文件拷贝到HDFS上；

Configuration config = new Configuration();

FileSystem hdfs = FileSystem.get(config);

Path srcPath = new Path(srcFile);

Path dstPath = new Path(dstFile);

hdfs.copyFromLocalFile(srcPath, dstPath);

创建HDFS文件；

//byte[] buff – 文件内容

Configuration config = new Configuration();

FileSystem hdfs = FileSystem.get(config);

Path path = new Path(fileName);

FSDataOutputStream outputStream = hdfs.create(path);

outputStream.write(buff, 0, buff.length);

补充(来自百度百科)：机架是用于固定电信柜内的接插板、外壳和设备。通常宽19英寸，高7英尺。对于IT行业，可简单理解为存放服务器的机柜。标准机架也称“19英寸”机架。机架式服务器的外形看来不像计算机，而像交换机，路由器等。机架式服务器安装在标准的19英寸机柜里面。这种结构的多为功能型服务器。

七、Hadoop 2.0新特性

NameNode HA

NameNode Federation

HDFS 快照（snapshot）

HDFS 缓存（in-memory cache）

HDFS ACL

异构层级存储结构（Heterogeneous Storage hierarchy）

异构层级存储结构

HDFS将所有存储介质抽象成性能相同的Disk

<name>dfs.datanode.data.dir</name>

</property>

产生背景：

存储介质种类繁多，一个集群中存在多种异构介质，如：磁盘、SSD、RAM等

多种类型的任务企图同时运行在同一个Hadoop集群中，需要解决批处理，交互式处理，实时处理等问题。

不同性能要求的数据，最好存储在不同类别的存储介质上

原理：

每个节点是由多种异构存储介质构成的

<name>dfs.datanode.data.dir</name>

</property>

HDFS仅提供了一种异构存储结构，并不知道存储介质的性能；

HDFS为用户提供了API，以控制目录/文件写到什么介质上；

HDFS为管理员提供了管理工具，可限制每个用户对每种介质的可使用份额；目前完成度不高

阶段1：DataNode支持异构存储介质（HDFS-2832，完成）

阶段2：为用户提供访问API（HDFS-5682，未完成）

HDFS ACL基于POSIX ACL的实现

产生背景：现有权限管理的局限性

对当前基于POSIX文件权限管理的补充(HDFS-4685)；

启动该功能；

将dfs.namenode.acls.enabled置为true

使用方法；

hdfs dfs -setfacl -m user:tom:rw- /bank/exchange

hdfs dfs -setfacl -m user:lucy:rw- /bank/exchange

hdfs dfs -setfacl -m group:team2:r-- /bank/exchange

hdfs dfs -setfacl -m group:team3:r-- /bank/exchange

HDFS快照

背景：HDFS上文件和目录是不断变化的，快照可以帮助用户保存某个时刻的数据；

作用：防止用户误操作删除数据和数据备份。

使用：

一个目录可以产生快照，当且仅当它是Snapshottable；

bin/hdfs dfsadmin allowSnapshot <path>

创建/删除快照；

bin/hdfs dfs -createSnapshot <path>[<snapshotName>]

bin/hdfs dfs -deleteSnapshot<path>[<snapshotName>]

快照存放位置和特点：快照是只读的，不可修改

快照位置：

• <snapshottable_dir_path>/.snapshot

• <snapshottable_dir_path>/.snapshot/snap_name

HDFS缓存

背景：

1.HDFS自身不提供数据缓存功能，而是使用OS缓存。容易内存浪费，eg.一个block三个副本同时被缓存。

2.多种计算框架共存，均将HDFS作为共享存储系统

MapReduce：离线计算，充分利用磁盘

Impala：低延迟计算，充分利用内存

Spark：内存计算框架

3.HDFS应让多种混合计算类型共存一个集群中，合理的使用内存、磁盘等资源，比如，高频访问的特点文件应被尽可能长期缓存，防止置换到磁盘上

实现：

用户需通过命令显式的将一个目录或文件加入/移除缓存：不支持块级别的缓存、不支持自动化缓存、可设置缓存失效时间。

缓存目录：仅对一级文件进行缓存，不会递归缓存所有文件与目录。

以pool的形式组织缓存资源，借助YARN的资源管理方式，将缓存划分到不同pool中。每个pool有类linux权限管理机制、缓存上限、失效时间等。

独立管理内存，未与资源管理系统YARN集成，用户可为每个DN设置缓存大小，该值独立于YARN

lanonola

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录