Hdfs详解

Hdfs概述

  1. Hdfs是Hadoop Distributed File System 的简称,它是Hadoop实现的一个分布式文件系统。
  2. Hdfs有高容错点的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
  3. Hdfs放宽了POSIX的要求,可以以流的形式访问文件系统的数据。
  4. Hdfs总体上采用了master/slave架构,主要由以下几个组件组成:Client、NameNode、Secondary和DataNode。

Hdfs框架

Hdfs特性

Hdfs(Hadoop Distributed File System)Hadoop分布式文件系统。

Hdfs特点:

  1. 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。
  2. 运行在廉价的机器上。
  3. 适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,128M为1个block,然后将block按键之对保存在Hdfs上,并且键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。

Hdfs写原理1

系统环境:

  1. 有个文件FileA,130M大小。Client将FileA写入到HDFS上。
  2. HDFS按默认配置。
  3. HDFS分布在三个机架上Rack1,Rack2,Rack3.

写数据流程

  1. client将fileA按照128M分块,block1和block2
  2. Client向nameNode 发送写数据请求,如图蓝色虚线①-------》
  3. NameNode节点,记录block信息,并返回可用的DataNode,如粉色虚线②--------------->。
  4. Client向DataNode发送block1;发送过程是以流式写入。

Hdfs写原理2

Hdfs读原理1

读流程

  1. client向namenode发送读请求。
  2. Namenode查看Metadata信息,返回FileA的block的位置。
  3. Block的位置是有先后顺序的,先读block1,再读block2。而且block1去host2上读取;然后block2,去host7上读取。


Hdfs读原理

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值