Hadoop学习之路(六):理解Hadoop三大核心组件之HDFS

一、分布式文件系统简介

一般而言,常见的文件系统都是单机的,即数据只存储在一台机器上,读写都必须交互这台机器。当数据大小超过一台独立主机的物理存储能力时就必须将数据分区,然后存储到若干台单独计算机上。管理网络中跨多台计算机存储文件的系统称之为分布式文件系统。该系统构建于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统要比普通文件系统复杂得多。

Hadoop有一个称之为HDFS的文件系统,即 Hadoop Distributed Filesystem,是一个分布式文件系统的实现,下面将介绍HDFS。

二、HDFS的设计

HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。
适合使用HDFS的场景:

  • 存储超大文件。超大文件是指具有几百MB、几百GB,甚至几百TB大小的文件。
  • 流式数据访问。HDFS认为一次写入多次读写是最为高效的访问模式。数据集通常由数据源不断产生,或者从数据源复制而来,接着长时间都在数据集上进行各种分析,每次都读取数据集的大部分内容甚至是全部内容,因此读取整个数据集的时延必读取
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值