HDFS 分布式文件系统

原创 2018年04月16日 09:35:55

 hdfs getconf -confKey dfs.namenode.edits.dir


概念

一台计算机的存储计算能力有限;

当一个数据集的大小超过了一台计算机的存储能力时,需要对其进行分区(patition),并存储到多个计算机上。—— 跨网络管理多个计算机储存的文件系统 —— 分布式文件系统

 

存储方式:以流式数据访问模式来存储超大文件

流式数据访问模式(如mapreduce:一次写入,多次读取是最高效的访问模式。数据集的分析处理,需要层层剥离过滤,最后才形成总结性的结果输出。期间需要多次读取数据集的全部或局部数据。

高时间延迟代价:超大数据的分析过滤处理,需要在内部长时间并行运算,才得出结果。从执行到结果输出有着高时间延迟的代价付出。

不支持多用户写操作,不支持在文件任意位置做修改

 

数据块:磁盘对数据进行读写的最小单位。 = 磁盘块

文件系统块:

分布式文件系统块(HDFS块):分块chunk-独立存储单元

 

HDFS:默认64MB,块的数据固定设置,大文件拆分成块,不会将元数据(ep权限信息)写到块中。块复制在多个节点(数据备份),还可提高数据容错和恢复能力。

 

HDFS集群的节点类型:

管理者-工作者模式:NameNode  dataNode

NameNode,命名空间,文件操作,数据块位置映射信息;

客户端,

dataNode ,存储并检索数据块,会送心跳给nameNode

 

nameNode的安全运行机制:

nameNode挂掉,整个文件系统就挂了,dataNode的数据块信息也无法读取。

(1)      备份系统级元数据文件,写操作时同时写到本地和远程挂载的网络文件系统NFS

(2)      辅助nameNode,主机挂,从NFS copy 元数据到辅助nameNode,运行之。

 

Hadoop有众多文件系统接口:

hdfs 只是其中一个实现。

即,mapreduce程序可以访问不同的文件系统个,只是处理大数据时最好选择一个具有本地数据优化的分布式文件系统,例如hdfs  kfs

 

Hadoopjava

Hadoopjava写,通过java api可以调用hadoop的所有文件系统的交互操作。

Hdfs的命令解释器就是使用javafileSYStem类来提供文件系统操作。

java应用访问hadoop,则通过thrift api的代理服务来实现文件操作系统的访问


看文件信息
hadoop fsck /user/filename

更详细的
hadoop fsck /user/filename -files  -blocks -locations -racks
 
-files  文件分块信息,
-blocks    在带-files参数后才显示block信息
-locations   在带-blocks参数后才显示block块所在datanode的具体IP位置,
-racks       在带-files参数后显示机架位置

SWT:AWT和SWING的强大竞争者

SWT:AWT和SWING的强大竞争者        内容: 第一个SWT程序 剖析SWT API 更复杂的程序 系统资源的管理 线程问题 SWT的扩展:JFace 参考资料 关于作者 Al...
  • tar
  • tar
  • 2003-06-13 16:03:00
  • 1032

分布式文件系统HDFS 之一

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。HDFS实现的目标 兼容廉价的硬件设备 流数据读写 大数据集 简单的文件模型 强大的跨平台兼容性 HDFS自身的局限性 不适合低延时数据访问...
  • youbingchen
  • youbingchen
  • 2016-06-16 22:52:36
  • 1404

Hadoop分布式文件系统HDFS的工作原理详述

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大规模数据集上的应...
  • zhouzxi
  • zhouzxi
  • 2015-07-16 08:48:21
  • 7119

Hadoop学习笔记(6)-简述分布式文件系统HDFS原理

1.HDFS的基本框架与工作过程1.1 基本组成结构与文件访问过程HDFS是一个建立在一组分布式服务器节点的本地文件系统之上的分布式文件系统。其采用经典的主-从式结构,其基本组成结构如图1所示。 ...
  • xummgg
  • xummgg
  • 2016-05-29 16:49:24
  • 1067

大数据技术原理与应用 第三章 分布式文件系统HDFS 学习指南

  • 2017年11月01日 00:46
  • 1.15MB
  • 下载

分布式文件系统HDFS原理与操作

1.HDFS:      提供分布式存储机制,提供可线性增长的海量存储能力;      自劢数据冗余,无须使用Raid,无须另行备份;     为进一步分析计算提供数据基础。 2.HDFS设计的基础与...
  • jim_cainiaoxiaolang
  • jim_cainiaoxiaolang
  • 2016-04-12 19:13:12
  • 288

分布式文件系统(HDFS)与linux系统文件系统关系

最近在学习hadoop时关于分布式文件系统(hdfs)中的块定义有点模糊,以及它内部与操作系统中物理磁盘块的关系,它们又是怎么建立关系?研究了一番,在这供大家参考,如有说的不对或是不全的地方,欢迎大家...
  • qq_32041579
  • qq_32041579
  • 2017-08-31 20:49:54
  • 1056

HDFS分布式文件系统具有哪些优点?

随着互联网数据规模的不断增大,对文件存储系统提出了更高的要求,需要更大的容量、更好的性能以及更高安全性的文件存储系统,与传统分布式文件系统一样,HDFS分布式文件系统也是通过计算机网络与节点相连,但也...
  • lmseo5hy
  • lmseo5hy
  • 2018-03-23 14:15:40
  • 90

高可用性的HDFS:Hadoop分布式文件系统深度实践

  • 2013年11月29日 13:52
  • 7.67MB
  • 下载

给系统架构师们的启示:分布式文件系统HDFS设计9大特点!

研究一下HDFS的几个设计特点,可以给系统架构师们进行分布式计算框架设计提供一些启示!...
  • shenmanli
  • shenmanli
  • 2017-03-29 09:45:52
  • 365
收藏助手
不良信息举报
您举报文章:HDFS 分布式文件系统
举报原因:
原因补充:

(最多只允许输入30个字)