随着人工智能、机器学习领域技术的持续进步,以及国家“新基建”战略的推进,新的技术和应用,加快了传统行业数字化转型,数据呈几何级增长。海量数据在被分析、挖掘中创造出无限价值。
互联网企业纷纷对数据存储和管理,出重金加大数据中心的建设,阿里投2000亿用于云操作系统、服务器、芯片等技术的研发事项,以应对海量数据的到来,腾讯乘胜追击出资5000亿……,存储技术是这场“数据战”中的核心问题。随着物联网、人工智能、5G的迅速发展,预测到2023年,存储架构中或40%都是分布式架构。
分布式存储架构
分布式存储最早是由谷歌提出来的,其目的是解决大规模以及高并发场景下,高效Web访问问题。
分布式存储就是将用户需要存储的数据,存储到不同的存储服务器中,利用多台存储服务器分担存储压力,将这些分散的存储空间,作为一个虚拟的数据存储设备,当用户想要获取数据时,按照规则把数据从对应的磁盘空间中取出来。简单来说,可以理解为,大量PC机通过网络互联,对外作为一个整体提供存储服务。
分布式存储的必要性
一个存储方式的优越性,在于其本身对于各种数据的存取表现,关于数据存储有这样几个点:
海量:大数据背景下,海量数据涌现,数据显示2025年全球新创数据达175ZB。
多元:文本、图片、视频等非结构化的数据,对数据存储提出考验
实时:如交通自动驾驶这样的智能网络场景,需要依赖快速实时的数据采集、分析、存储。
上云:未来将有大多数的企业会选择多云部署模式。
空间:目前只有约0.2%的数据&