华为存储学习笔记-1
存储含义
狭义:
具体的某种用于存储的设备,例如软盘,CD以及DVD和硬盘等。
广义:
包含了存储硬件系统、软件系统、存储网络和存储解决方案。
存储体系内容
解决方案
容灾解决方案、备份解决方案等
存储软件
存储管理软件、快照,镜像软件、备份软件、多路径软件
存储硬件
磁盘阵列、NAS(网络附加存储)、磁带库(现不常用)、FC HBA(主机总线适配器)卡,FC交换机,以太网交换机等
企业级存储一般关注的点
可靠性、安全性、备份、操作权限控制、成本、空间、容量等
容灾和备份的区别
-
容灾的对象一般是大批量的数据,例如主用数据中心中的所有的生产数据,核心业务数据等,需要在主用数据中心或者主用业务链路出现故障时进行大范围大批量的数据迁移,以保证业务数据的不丢失和整体业务的连续性。
-
备份相对于容灾来说需要备份的数据是比较小规模的,具有明确的针对性的数据,比如针对某一个可靠性要求较高的业务数据或者某一个租户的数据等。
存储方案发展
存储方案
DAS(直连存储)
是一种存储设备与服务器直接相连的架构。DAS为服务器提供块级的存储服务(不是文件系统级)。
DAS分为内部DAS和外部DAS两类:
内部DAS:
在内部DAS架构中,存储设备通过服务器机箱内部的并行或串行总线连接到服务器上。但是,物理的总线有距离限制,只能支持短距离的高速数据传输。此外,很多内部总线能连接的设备数目也有限,并且将存储设备放在服务器机箱内部,也会占用大量的空间 ,对服务器其它部件的维护造成困难。
外部DAS:
在外部DAS结构中,服务器与外部的存储设备直接相连。在大多数情况下,他们之间通过FC协议或者SCSI协议进行通信。与内部DAS相比,外部DAS克服了内部DAS对连接设备的距离和数量的限制。另外,外部DAS还可以提供存储设备集中化管理,更加方便。
NAS(网络附加存储)
是连接到一个局域网的基于IP的文件共享设备。NAS通过文件级的数据访问和共享提供存储资源,使客户能够以最小的存储管理开销快速直接共享文件;采用NAS可以不用建立多个文件服务器,是首选的文件共享存储解决方案; NAS还有助于消除用户访问通用服务器时的瓶颈;NAS使用网络和文件共享协议进行归档和存储,这些协议包括进行数据传输的TCP/IP和提供远程文件服务的CIFS(通用网络文件系统)、NFS(网络文件系统)。注意:采用NAS共享的时候,UNIX通常使用用NFS,Windows使用CIFS。
拓展:
随着网络技术的发展,NAS扩展到用于满足企业访问数据高性能和高可靠性的需求。 NAS设备是专用的、高性能的、高速的、单一用途的文件服务和存储系统。
SAN(存储区域网络)
是一个用在服务器和存储资源之间的、专用的、高性能的网络体系。它为了实现大量原始数据的传输而进行了专门的优化。因此,可以把FC SAN看成是对SCSI协议在长距离应用上的扩展(原先的SCSI协议最大的传输距离是6米)。FC SAN使用的典型协议组是SCSI和Fiber Channel 。 Fiber Channel特别适合这项应用,原因在于一方面它可以传输大块数据,另一方面它能够实现远距离传输。
实现IP SAN的典型协议是iSCSI,它定义了SCSI指令集在IP网络中传输的封装方式。
拓展:
SAN和NAS最大的区别就是NAS可以给计算节点提供文件系统 对于结算节点来说,拿到的直接就是可以共享的文件夹(共享目录)一样的感觉,但是SAN方案给计算节点提供的是一个裸盘,是无法直接进行使用的,需要对其进行格式化分区,部署文件系统等等操作以后才可以使用。
未来存储结构的发展趋势
融合存储
简而言之就是提高设备的兼容性,可以同时支持多种存储方案,可以降低成本(不再需要购买针对专一存储方案的硬件设备),可以简化存储管理,提高设备的利用率,降低TCO(总拥有成本)。
分布式存储
将标准x86服务器的本地HDD、SSD等存储介质组织成一个大规模的存储资源池,然后将数据分散存储到多个数据存储服务器上。分布式存储在一定程度上也可以减缓单台存储节点的IO压力。
软件定义存储
软件定义存储将通用X86服务器的本地HDD、SSD等介质通过分布式技术组织成大规模存储资源池,对非虚拟化环境的上层应用和虚拟机提供工业界标准的SCSI和iSCSI接口。(通过虚拟化技术屏蔽底层硬件差异,向上提供统一的存储接口,实现某种意义上的解耦。)
扩展(升级)模式
-
Scale
out:横向扩展,利用管理软件以及虚拟化技术,将多个性能一般物理设备在逻辑层面捆绑为一个高性能节点,后续如需要再次提升处理性能,只需要增加物理成员节点即可。 -
Scale up:纵向扩展,主要是通过不断升级和强化单台物理设备的性能来慢速业务的扩展需求。
由新兴业务主导催生的新的资源供给模式
说明:传统存储是为了满足单一应用或场景而建设的,而且这些烟囱不能满足弹性扩展的需求,所以在云化的前提下,新业务需要新型的存储资源支持模式,比如需要弹性、按需、规模扩展。
关键名词拓展
DHT(Distributed Hash Table)
即分布式哈希表,它通常是为了拥有极大节点数量的系统,而且在系统的节点常常会加入或退出节点而设计的。
FusionStorage采用的就是DHT算法,具有以下特点:
均衡性:数据能够尽可能分布到所有的节点中,这样可以使得所有节点负载均衡。
单调性:当有新节点加入系统中,系统会重新做数据分配,数据迁移仅涉及新增节点,现有节点上的数据不需要做很大调整。
ETL
是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
结构化数据与非结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
半结构化数据
比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。
半结构化数据中结构模式附着或相融与数据本身,数据自身就描述了其相应结构模式。具体来说,半结构化数据具有下述特征:
(1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。
(2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。
(3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态得结构模式。
CPS(Cyber Physical System)
即信息物理系统,是物联网的本质含义,它表示的是一种虚拟世界与物理世界的一种映射和对应关系。
PLM(Product Lifecycle Management,PLM)
产品生命周期管理
MES(Manufacturing Execution System)
即制造企业生产过程执行系统,是一套面向制造企业车间执行层的生产信息化管理系统。
数据与信息
数据和信息是相互联系的,数据是反映客观事务属性的记录,是信息的具体表现形式。而数据经过处理和加工以后就变成信息,而信息是需要经过数字化处理转变成数据记才能进行存储和传输。
信息论观点:
数据=信息+数据冗余
简而言之:
信息就是数据中包含的有用的东西。
从数据中经过用户指定的规则或者特定需求场景下提炼出来的信息能够为企业带来以下好处:
- 市场以及客户行为的信息
- 更高效的运营业务
- 帮助确定风险因素
信息数据的生命周期
ICT概述
ICT是信息、通信和技术三个英文单词的词头组合 (Information Communications Technology,简称ICT)
针对ICT的三种不同的理解(如下图所示)
注:IT由三部分组成:传感技术、通信技术和计算机技术,从概念的内涵来看,IT技术应该包含基本的信息收集、信息处理、信息传播(通信)和信息应用等技术内容;CT技术的目的也是为IT服务的。
硬盘接口类型
IDE、SATA、SCSI、SAS、FC
文件系统的功能
空间管理、文件名映射、文件操作、存储方法、文件共享。
——未完待续