HDFS详解

HDFS简介

HDFS的主要特点:

1.处理超大文件

2.流式的访问数据

3.运行于廉价的商用机器集群上

HDFS的局限性:

1.不适合低延迟的数据访问

2.无法高效存储大量小文件

3.不支持多用户写入和任意修改文件。

HDFS体系结构

HDFS的相关概念

1.块

块的默认大小使64M

2.NameNode和DataNode

NameNode使Master管理集群中的执行调度,DataNode是具体执行节点。

NameNode管理文件系统的命名空间,维护文件系统的目录树和索引目录。以fsimage和edits存储于本地系统。

从NameNode可以获得每个块所在的DataNode,这些信息不是永久保存的,会在每次重启时候动态重建。

DataNode是文件系统Worker中的节点,用来执行具体任务:存储文件块,被客户端和NameNode调用。同时它会通过心跳包向NameNode发送存储的块信息。

HDFS的体系结构

HDFS采用Master/Slave架构对文件系统进行管理,一个HDFS集群是由一个NameNode和若干DataNode组成的。

1.副本存放与读取策略

HDFS采用机架感知的策略来改进数据可靠性,可用性和网络利用率。

HDFS的默认副本数为3个,一个放在同机架的相同节点,一个放在同一机架的不同节点,一个放在不同机架节点。

2.安全模式

NameNode启动后会进入一个称为安全模式的特殊状态,处于安全模式的NameNode不会进行数据块的复制。NameNode从所有DataNode接收心跳包和块状态报告。当确认副本安全之后退出安全模式。

3.文件安全

确保NameNode的安全

1.备份NameNode上持久化存储的元数据文件,然后将其存储到其他文件系统中,这种转储使同步的,原子的操作。通常的实现方法是将NameNode的元数据转储到远程NFS文件系统中

2.系统中同步运行一个Secondary NameNode,这个节点的主要作用使周期性的合并命名空间和编辑日志,避免编辑日志过大。


HDFS的基本操作
HDFS的命令行操作
Web界面
Java API
HDFS中的读写数据流
文件的读取

文件的写入:

HDFS命令详解

通过distcp进行并行复制

HDFS的平衡

使用Hadoop归档文件

其他命令 fsck fs


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值