大数据学科-HDFS的演变

本文从传统的文件系统出发,探讨大数据背景下HDFS(Hadoop Distributed File System)的发展,解决存储瓶颈和效率问题。通过数据块的划分、NameNode与DataNode的角色分配,以及备份机制,阐述了HDFS如何实现高可用和容错性,成为大数据存储的重要组成部分。
摘要由CSDN通过智能技术生成

HDFS 源于 Google 在2003年10月份发表的GFS(Google File System)论文,接下来,我们从传统的文件系统入手,开始学习分布式文件系统,以及分布式文件系统是如何演变而来。

传统的文件系统对海量数据的处理方式是将数据文件直接存储在一台服务器上。

图1 传统文件系统
从上图中可以看出来,传统的文件系统在存储数据时,会遇到两个问题,具体如下:

l 当数据量越来越大时,会遇到存储瓶颈,就需要扩容;

l 由于文件过大,上传和下载都非常耗时;

为了解决传统文件系统遇到的存储瓶颈问题,那么首先考虑的就是扩容,扩容有两种形式,一种是纵向扩容,即增加磁盘和内存;另一种是横向扩容,即增加服务器数量。通过扩大规模从而达到分布式存储,这种存储形式就是分布式文件存储的雏形,如下图。

在这里插入图片描述
解决了分布式文件系统的存储瓶颈问题之后,那么还需要解决文件上传与下载的效率问题,常规的解决办法是将一个大的文件切分成多个数据块,将数据块以并行的方式进行存储。这里以30G的文本文件为例,将其切分成3块,每块大小10G(实际上每个数据块都很小只有100M左右),将其存储在文件系统中。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值