HDFS和普通的文件系统有什么差异?

本文探讨了传统文件系统在面对大数据存储和效率问题时的局限性,介绍了如何通过扩容和分布式存储来解决这些问题。HDFS作为分布式文件系统的代表,通过数据块切分和多副本机制提高了文件上传下载效率,并利用NameNode记录数据块信息,确保数据完整性。然而,单点故障问题由多副本机制得到缓解,每个数据块通常有3个副本存储在不同的DataNode上,确保高可用性。
摘要由CSDN通过智能技术生成

写在前面

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系

解答

1. 文件量相对不大,不过单文件会比较大。
2. 文件中间的内容不可以被篡改,只能添加在尾部。
3. 只能对文件进行创建、删除、重命名、修改属性以及在尾部添加等操作。

在这里插入图片描述

补充

如何从传统的文件系统发展到 HDFS 这样的分布式文件系统?

传统的文件系统在存储数据时,会遇到两个问题,具体如下:

  1. 当数据量越来越大时,会遇到存储瓶颈,就需要扩容;
  2. 由于文件过大,上传和下载都非常耗时。

为了解决传统文件系统遇到的存储瓶颈问题,首先考虑的就是扩容,扩容有两种形式,

  1. 一种是级向扩容,即增加磁盘和内存;
  2. 另一种是横向扩容,即增加服务器数量。

通过扩大规模达到分布式存储,这种存储形式就是分布式文件存储的难形。

解决了分布式文件系统的存储瓶颈问题之后,还需要解决文件上传与下载的效率问题。

常规的解决办法是将一个大的文件切分成多个数据块,将数据块以并行的方式进行存储。

这里以30G的文本文件为例,将其切分成3块,每块大小10G(实除上每个数据块都很小, 只有100M左右),将其存储在文件系统中, 文件通过数据块分别存储在服务器集群中.

HDFS 默认是 128 M

那么如何获取一个完整的文件呢?

针对这个问题,就需要再考虑增加一台服务器,专门用来记录文件被切割后的数据块信息以及数据块的存储位置信息

对应 HDFS 的 NameNode

存储数据块的服务器中突然有一台机器岩机,就无法正常的获取文件了,这个问题被称为单点故障。针对这个问题,可以采用备份的机制解决。

对应 HDFS 中的多副本机制(默认 3 副本),存储数据块的服务器对应 HDFS 中的 DataNode。

评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值