HDFS概念

HDFS上的文件也被分为以块为大小的分块,作为单独的单元存储。HDFS中的块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传送率。

名称节点 --- 管理者

数据节点 --- 工作者(多个)

名称节点管理文件系统规定命名空间,它维护着这个文件系统树以及这个数内所有的文件和索引目录。这些信息以两种形式将文件永久在本地磁盘上保存:命名空间镜像和编辑日志。名称节点也记录着每个文件的每个块所在的数据节点,但它并不永久保存块的位置,因为这些信息会在系统启动时由数据节点重建。

数据节点是文件系统个的工作者。它们存储并提供定位块的服务(被用户或名称节点调用时),并且定时的向名称节点发送它们存储的块的列表。


名称节点非常重要,如果运行名称节点的机器被毁掉,文件系统上的所有文件就会丢失。Hadoop提供两种机制来确保这一点。

1. 复制那些组成文件系统元数据持久状态的文件。Hadoop可以通过配置使名称节点在多个文件系统上写入其持久化状态。这些写操作是具同步性和原子性的。一般的配置选择是,在本地磁盘写入的同时,写一个远程NFS挂载(mount)。

2. 运行一个耳机名称节点,虽然它不能作为名称节点使用。这个二级名称节点的重要作用就是定期的通过编辑日志合并命名空间镜像,以防止编辑日志过大。这个二级名称节点一般在其它独立的物理机器上运行,因为它也需要占用大量CPU和内存来执行合并操作。但是,二级名称节点的状态是比主节点滞后的,所以主节点名称节点的数据若全部丢失,损失仍在所难免。

序列化 --- 指的是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。

反序列化 --- 指的是将字节流转为一系列结构化对象的过程。

序列化用于分布式数据处理中两个截然不同的领域:进程间通信和持久存储。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值