架构解密分布式到微服务:解析分布式文件存储,数据存储进化史

本文深入解析分布式文件存储的重要性,从HDFS到GlusterFS,以及OpenStack的Swift。探讨了数据存储的历史,从磁带到硬盘,再到RAID技术的发展。同时,文章介绍了NAS与SAN的融合,以及在大数据和云计算时代分布式存储的崛起。
摘要由CSDN通过智能技术生成

深入解析分布式文件存储

分布式文件系统是大型分布式系统中非常重要的基础设施。Hadoop中最重要的技术不是MapReduce,而是HDFS。除了HDFS,Spark还可以与老牌分布式文件系统GlusterFS结合使用。OpenStack中最重要且能独立运营的子系统是分布式对象存储系统Swift。Docker及 Kubernetes容器技术依然需要通过分布式文件系统实现批量处理任务中的共享存储问题。更不用说,无数电商系统都需要一个分布式文件系统来存储海量照片。因此,掌握分布式存储相关的知识和技能,对于一名分布式系统架构师来说非常重要。

数据存储进化史

作为计算机运行时数据的持久化存储手段,外部存储设备是计算机系统非常重要的外设之一,几十年来不断演进,其演进方向如下。

  • 单位体积的存储密度。
  • 存储容量。
  • 读写速度。
  • 存储成本。

我们先看看企业存储介质的传统主角之一——磁带。1952年,磁带式驱动器的容量仅为2MB;2013年,IBM TS3500磁带库的容量可以达到125PB (1PB=1024TB)。无论是硬盘技术还是光盘技术,都不适合用于数据存储备份,只有磁带机技术才适合。这是因为,磁带介质不仅能提供高容量、高可靠性(没有机械部件,不容易损坏)及可管理性,比光盘、磁盘等存储介质也便宜很多,因此,磁带机技术长期以来一直是唯一的数据存储备份(数据冷备)技术,从大型机时代到现在一直在演进。近年来,磁带存储的耐用性得到大幅提升,磁带库和一些磁带存储的解决方案能定期扫描磁带介质,确保它们是可读的且数据是有效的,如果检测到错误或数据损坏,则整个磁带或损坏的数据都是可以被复制到新磁带的,并且迁移到新磁带的技术同样实现了自动化。

在大数据时代产生了一个新的存储概念——冷存储(Cold Storage),指长期闲置且很少被访问的数据的存储。以社交平台Facebook为例,其用户上传的新图片每个月多达7PB,每天平均上传3亿张。这些数据中有很大一部分被长期搁置,因此可以将其存储在更低成本的存储介质中,而磁带无疑是存储介质的最佳选择。LTO (Linear Tape Open)机构发布的一份磁带出货量报告显示,虽然售出的产品数量自2008年开始就一路下降,但从2014年到2015年磁带产品的出货总容量增长了18%。由于磁带在大数据和云计算时代需求量增加,所以这方面的技术研究开始加速:2015年,IBM科学家与日本富士公司合作,在每平方英寸磁带上存储了1230亿 bits数据,比 IBM之前的企业级磁带产品的最大容量提升了22倍;2016年,索尼新一代磁带的存储容量达到了185TB,是传统磁带的74倍,是蓝光碟的3700倍。在2019年度“中国存储市场影响力排行榜”中IBM 的新一代云存储库TS4500磁带库获得年度最佳产品奖,该磁带库的最大容量高达351 PB。TS4500磁带库采用了磁带库专用的文件系统——Linear Tape File System(LTFS),这项技术让读写磁带的数据变得更为容易,就像使用文件系统的磁盘一样好用。IBM将LTFS技术提交给了LTO Consortium联合会,供联合会的企业成员下载,该

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值