大数据存储方式有哪些?

写在前面

本文隶属于专栏《大数据从 0 到 1》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见《大数据从 0 到 1》


正文

数据常用的存储介质为磁盘和磁带。

数据存储组织方式因存储介质不同而异。

在磁带上数据仅按顺序文件方式存取,在磁盘上则可按使用要求采用直接存取方式。

数据存储方式与数据文件组织密切相关,其关键在于建立记录的逻辑与物理顺序间对应关系,确定存储地址,以提高数据存取速度。

1. 直接连接存储

DAS (Direct Attached Storage,直接连接存储)是指将外置存储设备通过连接电缆,直接连接到一台主机上,再直接连接到存储系统中,使得数据存储是整个主机结构的一部分,在这种情況下,文件和数据的管理依赖于本机操作系统。

操作系统对磁盘数据的读写与维护管理, 需要占用主机资源,如 CPU、系统IO 等。

直接连接存储的 优点是中间环节少,磁盘读写带宽的利用率高,成本也比较低;缺点是其扩展能力有限,数据存储占用主机资源,使得主机的性能受到相当大的影响,同时主机系统的软硬件故障将直接影响对存储数据的访问。

直接连接存储方式适用于小型网络及一些硬盘播出系统。

2.网络连接存储

NAS (Network Attached Storage,网络连接存储)全面改进了低效的 DAS 存储。

它采用独立于服务器,单独为网络数据存储而开发的一种文件服务器来连接所存储设备,自形成一个网络。

这样数据存储不再是服务器的附属,而是作为独立网络结点存在于网络之中,可由所有的网络用户共享。

由于NAS 可无须网络文件服务器,不依赖通用的操作系统,而是采用一个专门用于数据存储的简化操作系统,内置了网络通信协议,其内嵌的操作系统及硬件体系结构专门针对文件管理和存储管理进行设计和优化,去掉了通用服务器的大多数计算及多媒体功能,能提供高效率的文档服务,不仅响应速度快,而且数据传输速率高。

3.存储域网络存储

SAN (Storage Area Network,存储域网络)是指通过支持 SAN 协议的光纤信道交换机,将主机和存储系统联系起来,组成一个 LUN Based 的网络。

与传统技术相比,SAN 技术的最大特点是将存储设备从传统的以太网中隔离出来,成为独立的存储局域网络。

SAN 使得存储与服务器分开成为现实。SAN技术的另一大特点是完全采用光纤连接,从而保证了大的数据传输带宽。

SAN 具有以下优点:专为传输而设计的光纤信道协议,使其传输速率和传输效率都非常高,特别适合于大数据量高带宽的传输要求。SAN 采用了网络结构,所以具有无限的扩展能力。

SAN 的欲点是成本高,管理难度大。


DAS、 NAS 和 SAN 三种存储比较

DAS、NAS 和 SAN 三种存储共存与互补,已经能够很好地满足数据存储的应用。

  1. 连接方式。从连接方式上比较,DAS 采用了存储设备直接连接应用服务器,具有一定的灵活性和限制性;NAS 通过网络(TCP/IP、ATM、FDDI) 技术连接存储设备和应用服务器, 存储设备位置灵活,随着万兆网的出现,传输速率有了很大的提高;SAN 则是通过光纤通道技术连接存储设备和应用服务器,具有很好的传输速率和扩-展性能。三种存储方式各有优势, 相互共存,占到了现在磁盘存储市场的70%以上。
  2. 产品的价格。SAN 和 NAS 产品的价格仍然远远高于DAS,许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。
  3. 自动精简配置。SAN 和NAS 系统可以利用自动精简配置技术来弥补早期存储分配不灵活问题。与直连存储架构相比,共享式的存储架构(如 SAN 或者 NAS) 都可以较好地完成存储问题。于是淘汰直接连接存储的进程越来越快。但是,目前直接连接存储仍然是服务器与存储连接的一种常用方式。

总结

数据常用的存储介质为磁盘和磁带,数据存储组织方式因存储介质不同而异。

直接连接存储(DAS)适用于小型网络及一些硬盘播出系统,网络连接存储(NAS)采用独立于服务器的一种文件服务器来连接所存储设备,存储域网络(SAN)通过支持SAN协议的光纤信道交换机,将主机和存储系统联系起来,组成一个LUN Based的网络。

DAS、NAS和SAN三种存储方式各有优劣,相互共存,占到了现在磁盘存储市场的70%以上。

SAN和NAS系统可以利用自动精简配置技术来弥补早期存储分配不灵活问题。

SAN和NAS产品的价格仍然远远高于DAS,许多用户出于价格因素考虑选择了低效率的直连存储而不是高效率的共享存储。


思维导图

在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据存储方式 大数据存储方式全文共15页,当前为第1页。 由于轻型数据库无法满足对结构化、半结构化和非结构化海量数据的存储管理以及复杂的数据挖掘和分析操作 通常使用分布式文件系统、No SQL 数据库、云数据库等进行数据存储 大数据存储方式全文共15页,当前为第2页。 目录 CONTENTS 分布式系统 01 No SQL数据库 02 云数据库 03 大数据存储方式全文共15页,当前为第3页。 分布式系统 大数据存储方式全文共15页,当前为第4页。 分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其"分而治之"的策略能够更好的处理大规模数据分析问题。主要包含以下两类: 1)分布式文件系统:存储管理需要多种技术的协同工作,其中文件系统为其提供最底层存储能力的支持。分布式文件系统 HDFS 是一个高度容错性系统,被设计成适用于批量处理,能够提供高吞吐量的数据访问。 2)分布式键值系统:分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有Amazon Dynamo,以及获得广泛应用和关注的对象存储技术(Object Storage)也可以视为键值系统,其存储和管理的是对象而不是数据块。 大数据存储方式全文共15页,当前为第5页。 No SQL数据库 大数据存储方式全文共15页,当前为第6页。 关系型数据库已经无法满足Web 2.0的需求。主要表现为:无法满足海量数据的管理需求、无法满足数据高并发的需求、高可扩展性和高可用性的功能太低。 NoSQL数据库的优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web 2.0应用,具有强大的横向扩展能力等,典型的NoSQL数据库包含以下几种:键值数据库、列族数据库、文档数据库和图形数据库。 大数据存储方式全文共15页,当前为第7页。 云数据库 大数据存储方式全文共15页,当前为第8页。 云计算是云数据库兴起的基础 云计算通过整合、管理、调配分布在网络各处的计算资源,通过互联网以统一界面同时向大量的用户提供服务 大数据存储方式全文共15页,当前为第9页。 云数据库的概念 云数据库的特性 与其他数据库的关系 大数据存储方式全文共15页,当前为第10页。 云数据库是基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库 大数据存储方式全文共15页,当前为第11页。 动态可扩展 高可用性 较低的使用代价 易用性 高性能 免维护 安全 云数据库的特性 大数据存储方式全文共15页,当前为第12页。 企业类型不同,对于存储的需求也千差万别,而云数据库可以很好的满足不同企业的个性化存储需求: 首先云数据库可以满足大企业的海量数据存储需求; 其次云数据库可以满足中小企业的低成本数据存储需求; 另外云数据库可以满足企业动态变化的数据存储需求。 云数据库是个性化数据存储需求的理想选择 大数据存储方式全文共15页,当前为第13页。 从数据模型的角度来说,云数据库并非一种全新的数据库技术,而只是以服务的方式提供数据库功能; 云数据库并没有专属于自己的数据模型,云数据库所采用的数据模型可以是关系数据库所使用的关系模型(微软的SQL Azure云数据库、阿里云RDS都采用了关系模型);也可以是NoSQL数据库所使用的非关系模型(Amazon Dynamo云数据库采用的是"键/值"方式存储),同一个公司也可能提供采用不同数据模型的多种云数据库服务,许多公司在开发语音数据库时,后端数据库都是直接使用现有的各种关系数据库或能收购数据库产品 云数据库与其他数据库的关系 大数据存储方式全文共15页,当前为第14页。 展示完毕,感谢观看 大数据存储方式全文共15页,当前为第15页。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值