《Hadoop权威指南》阅读记录2

第3章  Hadoop分布式文件系统

 

hadoop distributed filesystem

以流式数据访问模式来存储超大文件

hadoop的构建思路:一次写入,多次读取时最高效的访问模式,读取整个数据集的时间延迟,比读取第一条记录的时间延迟更重要。

目前,写操作总是将数据添加在文件的末尾,他不支持具有多个写入者的操作,也不支持在文件的任意位置进行修改。它们相对低效,以后可能会支持这些操作。

磁盘块一般为512字节,HDFS块默认64MB

HDFS块比磁盘块大,其目的是最小化寻址开销,降低寻址时间占传输时间的比例,以后随着磁盘驱动器传输速率的提升,块的大小将被设置的更大;但受限于map任务的处理速度,块不宜设置的太大,否则任务数太少,作业的运行速度会比较慢。

HDFS中fsck指令可以显示块信息,  %hadoop fsck / -files -blocks

HDFS集群有两类节点——管理者-工作者模式——一个namenode(管理者)和多个datanode(工作者)

namenode管理文件系统的命名空间,维护着文件系统树及整棵树内所有的文件和目录。以两个文件形式永久保存——命名空间镜像文件和编辑日志文件,其中记录着每个文件中各个块所在的数据节点信息,但并不永久保存块的位置信息,因为这些信息会在系统启动时由数据节点重建。

client通过提供文件系统接口,实现与namenode和datanode的交互

datanode是文件系统的工作节点,根据需要存储并检索数据块,并定期向namenode发送他们所存储的块的列表

namenode容错机制——1、备份那些组成文件系统元数据持久状态的文件;2、运行一个辅助namenode

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值